目前开放注册免费使用 http://www.wechatposts.com/ 输入公众号名称提交任务,五分钟内方可到处所有文章列表
1
nyfwan123 2017-11-24 11:27:45 +08:00
求问后端大概实现思路
|
2
cqcn1991 2017-11-24 11:47:28 +08:00
好 NB...
|
3
golmic 2017-11-24 11:57:13 +08:00 via Android
大概是怎么实现的呢?
|
4
br0x 2017-11-24 12:07:38 +08:00
同求,楼主讲一下思路呗
|
5
grimpil 2017-11-24 12:13:04 +08:00 via Android
只能采集十篇?
|
6
deathql 2017-11-24 12:24:07 +08:00
这个是怎么实现的 我也想知道
|
7
linKnowEasy 2017-11-24 12:29:02 +08:00
魔鬼交际学... 抓取失败
|
8
LukeChien 2017-11-24 12:34:47 +08:00 via Android
搜狗搜索抓的吧
|
9
utopia5719 2017-11-24 12:37:38 +08:00
试了一下,40 分钟了也没数据啊
|
10
jijiwaiwai OP @grimpil 可以采集所有
|
11
jijiwaiwai OP @LukeChien 不是
|
12
jijiwaiwai OP @utopia5719 提交的时候,请提交正确的“微信公众号名称”,注意区分大小写,且不是“微信号”
|
13
jijiwaiwai OP @linKnowEasy 可以的,今天刚上线,测试的人数太多,可能抓取有延迟
|
14
deathql 2017-11-24 12:48:45 +08:00
@jijiwaiwai web 微信吧
|
15
buir 2017-11-24 12:55:45 +08:00
Service Temporarily Unavailable
The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later. Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80 |
17
arens 2017-11-24 13:02:40 +08:00
注册不能
|
18
buir 2017-11-24 13:04:22 +08:00
直接 503 玩死了~
|
19
jijiwaiwai OP @buir 刷新
|
20
jijiwaiwai OP @deathql 也不是,哈哈
|
21
friejq 2017-11-24 13:19:05 +08:00
望楼主分享思路?
|
22
weer0026 2017-11-24 13:29:33 +08:00
正常应该搜狗来的,还记得之前造数分享了一个从微信公众号后台抓的办法。
|
23
mooncakejs 2017-11-24 13:31:27 +08:00
微信拿 key,关注采集,数据问题不大,号多了就不好维护了。
|
24
missdeer 2017-11-24 14:05:56 +08:00
503 Service Temporarily Unavailable
The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later. |
25
krasie 2017-11-24 14:13:23 +08:00
Proxy Error
The proxy server received an invalid response from an upstream server. |
26
luoshixiong 2017-11-24 14:14:59 +08:00
打不开 凉了?
|
27
faustina 2017-11-24 14:25:35 +08:00
502
|
28
xsd3169 2017-11-24 14:25:42 +08:00
凉了凉了凉了。。
``` <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN"> <html><head> <title>502 Proxy Error</title> </head><body> <h1>Proxy Error</h1> <p>The proxy server received an invalid response from an upstream server.<br /> The proxy server could not handle the request <em><a href="/">GET /</a></em>.<p> Reason: <strong>Error reading from remote server</strong></p></p> <hr> <address>Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80</address> </body></html> ``` |
29
jijiwaiwai OP |
30
xsd3169 2017-11-24 15:26:26 +08:00
@jijiwaiwai 666
之前我通过 MITM 做过一个差不多的,然而部分操作依然需要手动 2333 |
31
ORZRRR 2017-11-24 15:31:28 +08:00
大哥没有数据啊
|
32
php01 2017-11-24 15:34:57 +08:00
是关掉了吗?没抓到呀,就你的全球人工智能能抓到,其他的公众号都没用了,是你关掉服务了吗?
|
33
deadofpeople 2017-11-24 16:03:07 +08:00
关服务了吗 /?
|
34
xsd3169 2017-11-24 16:08:59 +08:00
@jijiwaiwai 抓不到..
|
35
anthow 2017-11-24 16:59:33 +08:00
老铁敢不敢告诉我一下下思路,嗯哼?
|
36
jijiwaiwai OP @xsd3169 全自动搞定
|
37
AlwaysBee 2017-11-24 18:41:06 +08:00
采集不了。。。。
|
38
AlwaysBee 2017-11-24 20:09:03 +08:00
看采集结果是和搜狗的结果一样的,那需要解决的问题就是验证码,这个可以通过 IP 代理池来进行规避验证码,如果要采集历史文章,只能通过微信的客户端进行采集,而这个会遇到封号的问题
|
39
jijiwaiwai OP @AlwaysBee 并不是搜狗,我的是实时采集的
|
40
jijiwaiwai OP @php01 临时关了一下
|
41
Britter 2017-11-25 10:24:17 +08:00
应该不是搜狗,搜狗限制太多了,这个应该是通过微信里边的机制来抓取的,之前也做过一套
|
42
AlwaysBee 2017-11-25 10:30:20 +08:00
@jijiwaiwai 但是我试了,并没有把历史文章采集到,只有最近十天的文章
|
43
akaayy 2017-11-25 16:58:26 +08:00
求分享思路。。
|
44
Sivan2017 2017-11-26 21:24:27 +08:00
求分享思路
|
45
golangggg 2020-02-14 18:10:57 +08:00
原贴过去好久了.. 已经过期了, 我这里有一套现在可用的免费 api 爬虫 https://github.com/Edaaaaa/wx-spider 可以供大家参考 codes 里面有 php 和 py 的 demo 简单写一点逻辑就可以使用了 api 方式可以 在几分钟时间内从开发到上线.比起自己搭建 效率高了很多倍 如果对你有帮助的话 记得在 github 点一下 star 谢谢了~
|