V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cqcn1991
V2EX  ›  问与答

微博、微信公众号现在有什么比较好的爬虫方案吗?

  •  
  •   cqcn1991 · 2016-04-06 18:33:20 +08:00 · 2781 次点击
    这是一个创建于 3184 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想定期爬几个微博号、公众号的数据,做个信息汇总的网站 但是不知道现在微博和公众号的爬取难度如何?

    8 条回复    2016-05-01 17:55:41 +08:00
    liaowu
        1
    liaowu  
       2016-04-06 18:55:30 +08:00 via iPhone
    公众号爬搜狗就好了。历史文章都有
    cqcn1991
        2
    cqcn1991  
    OP
       2016-04-06 19:00:36 +08:00 via iPhone
    @liaowu 话说有没例子?还是得做 cookies 那种?
    zcoder
        3
    zcoder  
       2016-04-06 19:35:14 +08:00
    @cqcn1991 不需要 cookie ,直接从 http://weixin.sogou.com/ 爬取
    cqcn1991
        4
    cqcn1991  
    OP
       2016-04-06 20:14:45 +08:00
    dong3580
        5
    dong3580  
       2016-04-06 20:33:42 +08:00 via Android
    用 c#上的 webbrower 爬取,不过微博可能翻页会有验证码
    vvaaiinn
        6
    vvaaiinn  
       2016-04-08 18:58:29 +08:00
    @cqcn1991 楼主你好、最近也在搞这个、但是水平有限、不知道怎么免过登陆、可否加个联系方式交流交流
    cqcn1991
        7
    cqcn1991  
    OP
       2016-04-08 19:54:49 +08:00
    @vvaaiinn 我也是啊...不知道怎么搞....我根本抓不到相关的信息
    cqcn1991
        8
    cqcn1991  
    OP
       2016-05-01 17:55:41 +08:00
    @liaowu
    @zcoder
    @dong3580
    已经基本解决了小量的爬取,我自己是 Ruby ,用的 PhantomJS
    凑合着用吧...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1144 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:30 · PVG 02:30 · LAX 10:30 · JFK 13:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.