1
wunonglin 2021-01-30 22:56:05 +08:00
没有。
搞那么多花里胡哨的,只要不需要手工验证,用 chromedp 都能给你爬没咯 |
2
ijrou 2021-01-30 23:29:45 +08:00
看你这么问,我只能说:没有
如果是大牛,,,,办法很多,,,但也不是完全反爬。。 |
3
imgbed 2021-01-30 23:35:46 +08:00
用户打开网页先来个图灵测试再显示内容
|
4
favourstreet 2021-01-31 00:00:47 +08:00 via Android
不加区分地随机把一部分请求的响应时间拖长十秒,我相信爬虫永远不会比用户有耐心。
|
5
fiveelementgid 2021-01-31 00:08:01 +08:00 via Android
没有,selenium+Chrome driver 在浏览器一级模拟,根本没办法
RECAPTURE of Google 除外( |
6
systemcall 2021-01-31 00:11:35 +08:00 9
注册的时候要手持 sfz,浏览必须得短信登录,看到一半就要求用户下载 App,电脑上面的话就让用户扫码下载。App 要求各种权限来做设备指纹,不给权限就闪退,设备指纹觉得有问题就封号,没问题的话时不时短信验证一下,之后摄像头偷拍几张做人脸识别,有问题就封号
实在要做 pc 版,就偷偷读一下用户的浏览记录,浏览记录和之前的用户画像差的大了就标记一下,让用户转到手机上用。时不时录下屏、扫下进程、分析一下局域网设备,觉得不对劲就把用户赶到手机 App 把那些恶心人的技术都加上去就行了 |
7
LeeReamond OP @systemcall 我明白了,百度才是反爬届的大哥大!
|
8
Jhonohn 2021-01-31 00:46:31 +08:00 via Android
每次登陆付费 0.1,登陆成功后 1 分钟返 0.1,让支付宝帮你验证对方是不是爬虫
|
9
locoz 2021-01-31 00:59:24 +08:00
如果你只是想要提高爬虫的成本,那你就把所有东西都变成登录可见,或者核心会被爬的那些都变成登陆可见,并且提高账号注册门槛,比如简单粗暴地使用外置登录(包括但不限于 QQ 、微信、Google 等),这样就可以快速将门槛提升到新手和一般水平的人没法好好爬的程度了。
另外,如果是商业性质的东西,你还可以加那种 Web 防火墙,自带的防 CC 攻击功能就能挡住很多一般水平的,花钱买专门的反爬虫服务的话效果更佳。 |
10
LeeReamond OP @locoz 是这样,如果用登录限制的话,就像现在这样,不排除有认证用户爬取数据的嫌疑,因为本身就是提供数据服务的,对方对数据有兴趣也并不奇怪。比如现在的 jwt 登录策略,只需要拿到 token 之后就可以退出模拟了,感觉成本并不是很高。防 CC 的话感觉,因为我们现在 nginx 已经设置了一个比如一秒访问一次的频率,最多也是每分钟被访问 60 次,这种频次应该离攻击还远,不会被挡。
|
11
LeeReamond OP @locoz pixiv 那个应该就是专门花钱买的反爬虫服务,我印象中几年以前,大概三四年以前,pixiv 的登录接口我自己是可以搞定的,然后到一两年前有需求的时候看了一眼发现搞不定了,似乎接入了谁家的反爬服务,但是 github 上还是开源了不少破解的东西。我感觉这样一来的话不如自己实现了,反爬做的再严密,数据价值到位总归有人会破开,不如自己做个简单点的原型,可以拦截 99%的菜鸟
|
12
johnsona 2021-01-31 05:13:10 +08:00
发现异常 ip,投毒,对方要找出有毒的,要再来一遍
|
13
lichdkimba 2021-01-31 05:35:52 +08:00
@favourstreet 爬虫才有耐心吧。。。。。都是机器
|
14
Atom931989614 2021-01-31 09:38:29 +08:00 via iPhone
@Jhonohn 用户跑没了
|
15
paradoxs 2021-01-31 10:16:36 +08:00
爬虫越难进,普通的用户也越难进。
爬虫不会没 ,但是用户会没。 |
16
nswdhy 2021-01-31 12:54:40 +08:00
用 webfont 替代部分文字呀,他爬去的就是残缺不全的一些文本。
|
17
zuiluo 2021-01-31 14:06:21 +08:00
写了很久的爬虫的来说说,想反爬,增加爬虫成本的几个步骤
接第三方安全认证,域名走他们的安全认证,再重定向回来,否则不能访问(自己找开源库写也行,浏览器指纹认证,一系列验证码都加上去 /js 强力混淆 /接口字段名混淆 /...) IP 请求频率要限制死,超过正常频率直接封;(当然不要封太久,防止误伤) 文本数据做字体加密,字体文件每次访问都不一样 用户鼠标轨迹做认证,前端必须定时提交(可以找第三方服务来认证识别,不然自己训练基本可用模型识别太麻烦了),否则封 这一整套搞上去,安全认证和验证码三天两头改一次,还没爬的基本直接放弃,已经爬的很快就受不了了。 |
18
wzzzx 2021-01-31 15:45:43 +08:00
|
19
hxse 2021-01-31 16:33:54 +08:00
1. 不要用网页
2. 把 text 转成 canvas, 做好混淆和加密 |
20
sess222 2021-02-01 12:08:08 +08:00
天猫国际的反爬就很好弄,限定每个实名账户一次性可访问 40 页,超过 40 页就要滑动验证码,再划十页直接把你 BAN 了。。。爬虫有啥用,你真人上去都不行。
|