首页
注册
登录
mysky007 最近的时间轴更新
mysky007
V2EX 第 287439 号会员,加入于 2018-01-28 23:21:07 +08:00
mysky007
提问
技术话题
好玩
工作信息
交易信息
城市相关
mysky007 最近回复了
2018-06-17 16:03:16 +08:00
回复了
vvaaiinn
创建的主题
›
Python
›
微信公众号内容的抓取、大家有什么好的建议吗
补充个链接:[微信公众号文章采集](
http://www.keydatas.com/doc/fuyYRzrY7vy2/weixin-gongzhonghao-caiji-wordpress
)
2018-06-17 15:53:33 +08:00
回复了
vvaaiinn
创建的主题
›
Python
›
微信公众号内容的抓取、大家有什么好的建议吗
通过搜狗入口抓取,有两种方案可以获取到文章的链接:1、解析 html 中的 json 数据。2、使用 seimiAgent 动态加载页面,再用 xpath 提取。使用第一种成本较低。至于 ip 可能被封问题,可考虑接多家 ip 代理服务商切换代理。
http://www.keydatas.com/doc/fuyYRzrY7vy2
这个平台采用的就是这种方案,可以采集,但速度没有普通网页快,可能是尝试了不同 IP 代理比较耗时。
»
mysky007 创建的更多回复
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
5373 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms ·
UTC 09:20
·
PVG 17:20
·
LAX 01:20
·
JFK 04:20
Developed with
CodeLauncher
♥ Do have faith in what you're doing.