V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leverestfish
V2EX  ›  程序员

[爬虫]如何获取公众号的所有文章(的链接)

  •  
  •   leverestfish · 2020-10-23 22:26:28 +08:00 · 5199 次点击
    这是一个创建于 1474 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求简单来讲就是 [如何获取一个微信公众号的所有文章的链接] 。微信搜狗搜索早就跪了。现在还有办法实现吗?

    求大佬们提供点思路,谢谢~

    23 条回复    2020-10-28 22:18:23 +08:00
    hunk
        1
    hunk  
       2020-10-23 22:30:24 +08:00   ❤️ 1
    总之,很难。
    研究过用真机自动化操作获取的方法,太麻烦了。
    OldActorsSmile
        2
    OldActorsSmile  
       2020-10-23 22:32:18 +08:00   ❤️ 1
    xposed
    wangyzj
        3
    wangyzj  
       2020-10-23 23:01:24 +08:00 via iPhone   ❤️ 1
    逆向吧
    opengps
        4
    opengps  
       2020-10-23 23:03:57 +08:00   ❤️ 1
    缺少公开的索引入口,天然的防爬虫
    lithbitren
        5
    lithbitren  
       2020-10-23 23:25:47 +08:00   ❤️ 1
    主要把地址复制出来就好办了,闲置笔记本拿去做过些自用的挂机类小游戏的按键脚本,公众号没搞过但感觉比做小游戏的脚本还简单点,公众号聊天列表里按一次 page up/down 刚好是一屏,其他所有关键点的位置都是固定的,也不会误点广告,做脚本应该不太难,先拿完了地址再用别的东西爬就容易了
    leverestfish
        6
    leverestfish  
    OP
       2020-10-24 02:15:03 +08:00
    谢谢各位回复,太难了哈哈哈,看来我的水平就不用惦记真自动方法了 hhh
    最后顺便不抱希望问问大家有没有见过这样需求的案例 /项目啊
    IllBeBack
        7
    IllBeBack  
       2020-10-24 02:18:27 +08:00 via Android   ❤️ 1
    GitHub 有开源的 Python 代码,几个月前试过,模拟 Chrom 登入公众号后台,然后模拟插入别人的公众号文章链接到自己的文章。不过得到的是长连接。
    heiheidewo
        8
    heiheidewo  
       2020-10-24 09:04:02 +08:00   ❤️ 1
    懒得抓啊,有现成的 api 接口卖嘛
    locoz
        9
    locoz  
       2020-10-24 09:21:17 +08:00 via Android   ❤️ 1
    量多大?量大还愿意花钱就很好解决
    airqj
        10
    airqj  
       2020-10-24 09:37:03 +08:00 via Android   ❤️ 1
    每个微信号每日请求公众号接口数量是有限制的
    具体多少没注意 大概两三百
    所以没法一次性拿到所有数据
    Leigg
        11
    Leigg  
       2020-10-24 10:43:08 +08:00 via Android   ❤️ 1
    转换思维,你不行,有人行,高报酬求 xxx 爬虫源码,带文档,钱够了,没有找不到。所以说啊,典型的技术人思维,跳不出来。
    Leigg
        12
    Leigg  
       2020-10-24 10:44:08 +08:00 via Android
    百度都查不到的东西,你指望会有人给你免费解答?
    gochat
        13
    gochat  
       2020-10-24 11:39:33 +08:00   ❤️ 1
    不麻烦,有买家嘛?
    leverestfish
        14
    leverestfish  
    OP
       2020-10-24 16:53:20 +08:00
    @IllBeBack 我去找找,我的需求不大哈哈哈,每天爬几十条最多了(增量爬阶段)。您这能否大致给个关键词,我之前搜过没搜到这个。

    @locoz 量的话就是给二三十个公众号做聚合搜索,要动态更新(不用特别及时,一天更新两次足够)。

    @Leigg 哈哈谢谢指点,还没工作呢,以后或许可以改变思维。

    @gochat 简单讲下我的需求吧,非商业需求算是志愿服务吧,想给几个常用的公众号做一个聚合搜索而已,所以花钱还是不太能承受的,最主要的是我需要增量爬取动态更新。但一个月十几块钱我还是能接受的。
    gochat
        15
    gochat  
       2020-10-24 18:07:35 +08:00
    @leverestfish 可以的,增量更新文章,同时抓取阅读量,评论,数据全部入库
    leverestfish
        16
    leverestfish  
    OP
       2020-10-24 19:45:04 +08:00
    Tianyan
        17
    Tianyan  
       2020-10-24 20:39:18 +08:00   ❤️ 1
    这个网站做到了 wemp.app
    locoz
        18
    locoz  
       2020-10-24 22:19:53 +08:00 via Android   ❤️ 1
    @leverestfish #14 量这么少你直接爬西瓜数据、二十次幂之类的就好了
    kingba
        19
    kingba  
       2020-10-25 15:13:33 +08:00   ❤️ 1
    [Chrome 插件让微信公众号历史文章阅读不再痛苦,在 PC /Mac Chrome 浏览器上就能看,而且支持文章列表导出 CSV (开源) - V2EX]( https://www.v2ex.com/t/692681)
    自荐一下
    leverestfish
        20
    leverestfish  
    OP
       2020-10-27 16:05:29 +08:00
    @kingba 已经失效了诶,打开历史页面看不到任何文章。
    leverestfish
        21
    leverestfish  
    OP
       2020-10-27 16:05:51 +08:00
    @locoz 我需要特定公众号,这两个网站不一定有吧。
    locoz
        22
    locoz  
       2020-10-27 16:48:14 +08:00
    @leverestfish #21 没有的就添加监控啊,让别人帮你爬就好了
    kingba
        23
    kingba  
       2020-10-28 22:18:23 +08:00
    @leverestfish 可以参考下 github 上的 readme 说明哈,我试了下在 Windows 下是可以的,但你如果需要增量爬可能就不适合了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3678 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 00:12 · PVG 08:12 · LAX 16:12 · JFK 19:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.