首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
拉钩
V2EX  ›  程序员

微信公众号文章采集

  •  
  •   jijiwaiwai · 2017-11-24 11:25:21 +08:00 · 5018 次点击
    这是一个创建于 388 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前开放注册免费使用 http://www.wechatposts.com/ 输入公众号名称提交任务,五分钟内方可到处所有文章列表

    第 1 条附言  ·  2017-11-24 15:18:05 +08:00
    网站打不开可以临时使用:
    http://l162241j11.imwork.net/
    44 回复  |  直到 2017-11-26 21:24:27 +08:00
        1
    nyfwan123   2017-11-24 11:27:45 +08:00
    求问后端大概实现思路
        2
    cqcn1991   2017-11-24 11:47:28 +08:00
    好 NB...
        3
    golmic   2017-11-24 11:57:13 +08:00 via Android
    大概是怎么实现的呢?
        4
    br0x   2017-11-24 12:07:38 +08:00
    同求,楼主讲一下思路呗
        5
    grimpil   2017-11-24 12:13:04 +08:00 via Android
    只能采集十篇?
        6
    deathql   2017-11-24 12:24:07 +08:00
    这个是怎么实现的 我也想知道
        7
    linKnowEasy   2017-11-24 12:29:02 +08:00
    魔鬼交际学... 抓取失败
        8
    LukeChien   2017-11-24 12:34:47 +08:00 via Android
    搜狗搜索抓的吧
        9
    utopia5719   2017-11-24 12:37:38 +08:00
    试了一下,40 分钟了也没数据啊
        10
    jijiwaiwai   2017-11-24 12:44:53 +08:00
    @grimpil 可以采集所有
        11
    jijiwaiwai   2017-11-24 12:45:12 +08:00
    @LukeChien 不是
        12
    jijiwaiwai   2017-11-24 12:46:01 +08:00
    @utopia5719 提交的时候,请提交正确的“微信公众号名称”,注意区分大小写,且不是“微信号”
        13
    jijiwaiwai   2017-11-24 12:46:46 +08:00
    @linKnowEasy 可以的,今天刚上线,测试的人数太多,可能抓取有延迟
        14
    deathql   2017-11-24 12:48:45 +08:00
    @jijiwaiwai web 微信吧
        15
    buir   2017-11-24 12:55:45 +08:00
    Service Temporarily Unavailable

    The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later.

    Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80
        16
    sangmong   2017-11-24 12:56:06 +08:00
    @buir 我这也是
        17
    arens   2017-11-24 13:02:40 +08:00
    注册不能
        18
    buir   2017-11-24 13:04:22 +08:00
    直接 503 玩死了~
        19
    jijiwaiwai   2017-11-24 13:16:49 +08:00
    @buir 刷新
        20
    jijiwaiwai   2017-11-24 13:17:08 +08:00
    @deathql 也不是,哈哈
        21
    friejq   2017-11-24 13:19:05 +08:00
    望楼主分享思路?
        22
    weer0026   2017-11-24 13:29:33 +08:00
    正常应该搜狗来的,还记得之前造数分享了一个从微信公众号后台抓的办法。
        23
    mooncakejs   2017-11-24 13:31:27 +08:00
    微信拿 key,关注采集,数据问题不大,号多了就不好维护了。
        24
    missdeer   2017-11-24 14:05:56 +08:00
    503 Service Temporarily Unavailable

    The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later.
        25
    krasie   2017-11-24 14:13:23 +08:00
    Proxy Error

    The proxy server received an invalid response from an upstream server.
        26
    luoshixiong   2017-11-24 14:14:59 +08:00
    打不开 凉了?
        27
    faustina   2017-11-24 14:25:35 +08:00
    502
        28
    xsd3169   2017-11-24 14:25:42 +08:00
    凉了凉了凉了。。
    ```
    <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
    <html><head>
    <title>502 Proxy Error</title>
    </head><body>
    <h1>Proxy Error</h1>
    <p>The proxy server received an invalid
    response from an upstream server.<br />
    The proxy server could not handle the request <em><a href="/">GET&nbsp;/</a></em>.<p>
    Reason: <strong>Error reading from remote server</strong></p></p>
    <hr>
    <address>Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80</address>
    </body></html>
    ```
        29
    jijiwaiwai   2017-11-24 15:19:31 +08:00   ♥ 1
    @xsd3169 网站打不开可以临时使用:
    http://l162241j11.imwork.net/
        30
    xsd3169   2017-11-24 15:26:26 +08:00
    @jijiwaiwai 666
    之前我通过 MITM 做过一个差不多的,然而部分操作依然需要手动 2333
        31
    ORZRRR   2017-11-24 15:31:28 +08:00
    大哥没有数据啊
        32
    php01   2017-11-24 15:34:57 +08:00
    是关掉了吗?没抓到呀,就你的全球人工智能能抓到,其他的公众号都没用了,是你关掉服务了吗?
        33
    deadofpeople   2017-11-24 16:03:07 +08:00
    关服务了吗 /?
        34
    xsd3169   2017-11-24 16:08:59 +08:00
    @jijiwaiwai 抓不到..
        35
    anthow   2017-11-24 16:59:33 +08:00
    老铁敢不敢告诉我一下下思路,嗯哼?
        36
    jijiwaiwai   2017-11-24 17:56:03 +08:00
    @xsd3169 全自动搞定
        37
    AlwaysBee   2017-11-24 18:41:06 +08:00
    采集不了。。。。
        38
    AlwaysBee   2017-11-24 20:09:03 +08:00
    看采集结果是和搜狗的结果一样的,那需要解决的问题就是验证码,这个可以通过 IP 代理池来进行规避验证码,如果要采集历史文章,只能通过微信的客户端进行采集,而这个会遇到封号的问题
        39
    jijiwaiwai   2017-11-25 09:40:17 +08:00
    @AlwaysBee 并不是搜狗,我的是实时采集的
        40
    jijiwaiwai   2017-11-25 09:40:33 +08:00
    @php01 临时关了一下
        41
    Britter   2017-11-25 10:24:17 +08:00
    应该不是搜狗,搜狗限制太多了,这个应该是通过微信里边的机制来抓取的,之前也做过一套
        42
    AlwaysBee   2017-11-25 10:30:20 +08:00
    @jijiwaiwai 但是我试了,并没有把历史文章采集到,只有最近十天的文章
        43
    akaayy   2017-11-25 16:58:26 +08:00
    求分享思路。。
        44
    Sivan2017   2017-11-26 21:24:27 +08:00
    求分享思路
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2944 人在线   最高记录 4019   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 21ms · UTC 10:34 · PVG 18:34 · LAX 02:34 · JFK 05:34
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1