如题,从学校新闻接口抓到的数据,是在浏览器网络监听的 portalAjax.getNewsXml.dwr 这里看到的响应, 用 python request post 方法调用的返回文本是:
//#DWR-INSERT //#DWR-REPLY dwr.engine._remoteHandleCallback('0','0',"\n<list><pagecount>3641</pagecount><item>\n
请问如何使用 py 截取里面的 xml ,我试着用字符串寻找到 xml 头部和尾部,然后调用 xml.etree 分析,但初始化 xml 时报错:
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 1, column 784
如何解决?
1
stamaimer 2016-12-01 15:36:11 +08:00 via iPhone
你把 list 之前的内容删掉试试?
|
3
stamaimer 2016-12-01 16:19:37 +08:00 via iPhone
我猜 bs4 里面应该有可以修正不规范的文档的功能。
|
4
broono 2016-12-01 16:44:08 +08:00
不打算用正则先匹配出完整的树出来吗
|
5
slysly759 2016-12-01 17:39:39 +08:00 via Android
哈哈原来有遇到过, stack 上有解决方案,个人博客上有提到过| ू•ૅω•́)ᵎᵎᵎ
|