网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家
1
fan2006 Jan 3, 2019
用过 lxml 和 beautifulsoup4.
|
2
boom7 Jan 3, 2019
lxml.html.clean 试一下?
|
3
JackeyGao Jan 3, 2019
不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html
|
4
lihongjie0209 Jan 3, 2019
不就是 dom 树的 变量
|
5
lihongjie0209 Jan 3, 2019
变量 -> 遍历
|
7
poorcai Jan 3, 2019 via iPhone
搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息
|
8
villivateur Jan 3, 2019 via Android
Beautiful Soup
|
9
tabris17 Jan 3, 2019
就说一个,pyquery 有坑,其他如何不清楚
|
10
Huelse Jan 3, 2019
beautifulsoup4 容易点
|
11
huluhulu Jan 3, 2019 via iPhone
Beautiful Soup 很好用
|
12
WeaponXu Jan 3, 2019
bs4 啊
|
13
heiybb Jan 3, 2019 via Android
居然没人说 pyquery 嘛
|
14
Olorin Jan 3, 2019
beautifulsoup4
|