1
opengps 2018-05-13 07:21:00 +08:00 via Android
不欢迎预期之外的小搜索引擎?
|
3
lukefan 2018-05-13 09:59:07 +08:00
淘宝、百度、facebook 等纷纷表示确实很开心
|
4
cairnechen 2018-05-13 10:07:12 +08:00
不知道是不是我的理解偏差,robots 是不是就和君子协定差不多啊
|
5
maemual 2018-05-13 10:09:01 +08:00
@cairnechen #4 是
|
6
pkookp8 2018-05-13 10:13:53 +08:00 via Android
是我理解错了么,百度家的也是这样
|
7
cairnechen 2018-05-13 10:23:55 +08:00
@maemual 那为什么淘宝的 robots 对百度会有约束力呢?
|
8
whileFalse 2018-05-13 10:25:26 +08:00
皮一下你不开心?
|
9
maemual 2018-05-13 10:36:18 +08:00
@cairnechen #7 淘宝不是通过 robots.txt 去封的百度啊。。。
|
10
queshengyao 2018-05-13 20:39:54 +08:00 via iPhone
@maemual 请问一下淘宝是如何禁止百度爬虫的?我一直以为是百度遵守了 robots 协议
|
11
oonnnoo 2018-05-13 22:01:51 +08:00
GitHub,除了 EtaoSpider,国内其他 bot 都被包含在*中,更皮
|
12
maemual 2018-05-13 23:18:54 +08:00
@queshengyao #10 封一把百度爬虫的 UA 就好了啊。
|
13
queshengyao 2018-05-14 08:53:03 +08:00 via iPhone
@maemual 我用 postman 试了一下,用百度爬虫的 ua 是可以拿到淘宝商品页内容的呀
|
14
maemual 2018-05-14 08:57:40 +08:00 via iPhone
@queshengyao UA 只是举个例子,还有很多手段啊,比如封百度爬虫的 IP 段之类的
|
15
queshengyao 2018-05-14 09:34:24 +08:00 via iPhone
@maemual 嗯这我知道,要封爬虫有很多方式,但我是看到你之前回复说淘宝不是通过 robots 来防止百度爬虫的,所以想知道是百度没遵守 robots 协议,然后淘宝另外用了手段封禁吗?
|
16
maemual 2018-05-14 10:27:38 +08:00
@queshengyao #15 robots 只是个声明,不是个强制手段,以百度的尿性,能遵循这种君子协定?
|
17
MinonHeart 2018-05-15 18:32:32 +08:00
github 也这么做。爬虫多了,知乎的土豆服务器可能扛不住
|