自动提取网页内容

我现在找到了 boilerpipe 这个正文提取的很不错，就是如果想提取新闻发布时间和新闻来源的，也是尴尬（我看文档看的迷迷糊糊的）。

--------------------
重要的是，同一站点下新闻链接的抓取也是头疼。不标准的站太多，同一个栏目下，文章的链接不规则，自己配正则还好，自动的话。（抓狂）

-----------------------
OS:我只是实习生啊~~~~~~

提取

蟹蟹

xpath

网页

24 replies • 2016-08-20 12:12:38 +08:00

tumb8r

Aug 19, 2016

title 好说，但是想正文、发布时间、来源等，每个源的标签是一样的吗？如果是一样的很好爬，如果不一样就需要针对每个源写规则，麻烦。

dsg001

Aug 19, 2016

https://github.com/vinta/awesome-python
有自动提取正文的库，但只能针对标准网页，如果太过杂乱也没辙

naomhan

Aug 19, 2016

正文还好说标题时间提取真的不容易暂时没人研究我们暂时是通过百度搜索相关新闻因为百度搜索都结构化处理了时间标题获取就很容易

laoyur

Aug 19, 2016

用 readability

ququzone

Aug 19, 2016

看看我写的这个把 https://github.com/ququzone/smart-extractor
基于 Readability ，支持 Docker 的微服务

MarcoQin

Aug 19, 2016

python-goose 应该可以应付大多数标准的信息源。再配合部分 xpath 应该可以的

polythene

Aug 19, 2016

我之前做了一个应用，用来提取 hackernews 上新闻的正文，这是我用来提取的库 https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor ，至少 hackernews 上 X 千的新闻源提取效果蛮好的。

cai72738

Aug 19, 2016

@polythene 除了大段正文的提取，那新闻来源和发布时间，也是需要精确匹配出来的。还有最难搞的新闻 URL
@tumb8r 还就真的不一样，而且我现在也就在对每个源写规则，恼死了。

cai72738

Aug 19, 2016

@MarcoQin 标准信息源很少，大部分都是不标准的

xhsmile

Aug 19, 2016

Python+ requests
接着写脚本
import requests
html = requests.get(url).text
print(html)
然后 re 解析？

cai72738

Aug 19, 2016

@xhsmile 上千的源，不大可能一个一个写正则。所以就想有没有能自动生成网页对应的正则的库

whahugao

Aug 19, 2016

想起来 v 站以前见到过一个大神写的貌似挺好
/t/270075

reyoung1110

Aug 19, 2016

groose

reyoung1110

Aug 19, 2016

https://github.com/grangier/python-goose 刚才拼错了

ambw

Aug 19, 2016

boilerpipe 也不错，是我觉得最好用的

cai72738

Aug 19, 2016

@ambw 那个只有标题和正文，我看源码，看能不能提取出其他信息

icybee

Aug 19, 2016

1. python-readability
https://github.com/buriy/python-readability

2. newspaper3k
https://github.com/codelucas/newspaper

3. readabilityBUNDLE
https://github.com/srijiths/readabilityBUNDLE

4. Dragnet
https://github.com/seomoz/dragnet

5. Diffbot
http://www.diffbot.com/products/automatic/article/

各种工具都借鉴了比较多的算法，其中原始的 readability （ 1 ）是被一个叫 Pocket 的 app 商业化使用的，应该还可以；第 3 个 BUNDLE 是综合了三种基于 readability 的算法；第 5 个是基于 CV 的算法