1
Jwyt 2021-07-05 10:44:33 +08:00
具体说下?
|
2
lawsiki 2021-07-05 10:45:43 +08:00
具体说下?
|
3
Jooooooooo 2021-07-05 10:52:02 +08:00
大公司都是一个大团队专门搞这个
|
4
youngce 2021-07-05 10:57:13 +08:00
给美团点赞,最近烦死爬虫了
|
7
Cyen 2021-07-05 11:04:30 +08:00
没有具体的了?
|
8
ifsclimbing OP |
9
no1xsyzy 2021-07-05 13:16:11 +08:00
|
10
kidult 2021-07-05 14:26:16 +08:00 2
正常的用户都跟贼一样防着,别说爬虫了
|
11
photon006 2021-07-05 14:27:28 +08:00
用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。
|
12
arthas2234 2021-07-05 14:29:50 +08:00
矛和盾的关系,打不过就加入
|
13
paradoxs 2021-07-05 14:33:31 +08:00 1
其实美团完全可以直接让法务部处理的,还是太善良了。
|
14
paradoxs 2021-07-05 14:34:08 +08:00
最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。
|
15
ifsclimbing OP @paradoxs 怕
|
16
TomVista 2021-07-05 15:13:27 +08:00
面向牢饭编程.dog
|
17
zhengfan2016 2021-07-05 15:17:58 +08:00
饿了么?
|
19
ifsclimbing OP @zhengfan2016 饿了么没美团难
|
20
ifsclimbing OP @zocome 没试过淘宝
|
21
akira 2021-07-05 15:28:55 +08:00
只要普通用户可以正常访问,就一定有方案可以爬
|
22
pwelyn 2021-07-05 15:34:52 +08:00
道高一尺 魔高一丈 继续做对抗
|
23
ifsclimbing OP @akira 是的,就是成本问题
|
24
littlewing 2021-07-05 15:59:10 +08:00
之前看过一个帖子,数字部分用字体做反扒的
|
26
zjmdp 2021-07-05 18:00:43 +08:00
我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽
|
28
zjmdp 2021-07-05 18:19:32 +08:00
@yangyifan 是下面两个设置吗?
options.add_experimental_option('excludeSwitches', ['enable-automation']) options.add_argument("disable-blink-features=AutomationControlled") |
29
zjmdp 2021-07-05 18:20:30 +08:00
@yangyifan 还有下面这段
self.driver.execute_cdp_cmd( "Page.addScriptToEvaluateOnNewDocument",{ "source":''' Object.defineProperty(navigator,'webdriver',{ get: () => undefined }) ''' } ) |
32
coolmenu 2021-07-06 07:10:49 +08:00
用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。
|
33
Canace 2021-07-06 09:28:56 +08:00
具体说下?
|
35
ifsclimbing OP @coolmenu 好办法
|
36
yangyifan 2021-07-06 12:40:16 +08:00
@zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。
|
37
ifsclimbing OP @yangyifan 头大
|
39
ml1344677 2021-07-06 19:05:52 +08:00
曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。
|
41
TheBestSivir 2021-07-07 10:43:56 +08:00
美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI
起码在美团外卖,很早就不搞爬虫了爬别人了 |
42
ifsclimbing OP @TheBestSivir 美团厉害
|