1.自己 tessorflow 深度学习? 2.第三方验证码接口接入?
1
suley 2018-07-18 18:46:26 +08:00
验证码难不难?简单的数字和字母可以到 github 上找找看看那些识别验证码的开源代码;
比较复杂的验证码的一般是接入第三方打码平台。 |
2
luosuosile 2018-07-18 18:49:50 +08:00
cookid 行不行?爬虫方面不怎么会
|
3
ml1344677 2018-07-18 19:01:08 +08:00
1.爬虫应该尽可能的避免或减少触发验证码,找其他的接口或者换 ip 地址,需要登录的另说。
2.如真的触发,图片验证码应该比较容易解决的,不需要 tessorflow 深度学习什么的,有开源的库,滑块和各种奇葩还是接打码平台吧 |
4
Nick2VIPUser 2018-07-18 20:15:40 +08:00 via iPhone
同问...量级比较大的话买验证码接口成本略高
|
5
supervipcard 2018-07-18 20:46:21 +08:00
简单的字母验证码跟复杂的点选啥的都可以自己训练模型来识别,不过一般得标注训练集,自己标注费时费力,可以花钱找人标注,想省事就直接接入第三方。
|
6
karot 2018-07-19 08:00:44 +08:00
我想做成滑两个或三个块的验证码,哈哈
|
7
Leigg 2018-07-19 08:53:25 +08:00 via iPhone
建议别想着自己搞,会花很多精力还不一定有结果,你若能用 tf 搞定各种验证码的话,就不用干爬虫了。
|
8
RicardoScofileld 2018-07-19 09:47:55 +08:00
容易识别的可以用 tesseract,复杂的就大码平台 吧
|
9
GoPHP 2018-07-19 10:57:17 +08:00
先想办法研究如何不触发验证码验证吧? ip,ua... 还是根据账号?
话说都上了验证码肯定不是根据账号来,想封你账号太简单了,那估计就是 ip 了,ip 可以找代理,这比你破验证码简单多了! |
10
crawl3r 2018-07-19 12:24:18 +08:00
1. 先尝试能否绕过,比如某些网站的验证码明文写在 cookie 里并在本地校验
2. 不能绕过如果是简单验证码,比如没有变形的,只要进行简单的处理(二值化,反相等)后扔给 tesseract 就行了 3. 有轻微变形或干扰的,去躁->svm 4. 干扰严重或变形严重的,keras 搭个 cnn+mlp |
11
cnmllll OP |
12
Leigg 2018-07-21 10:28:24 +08:00 via iPhone
云打码,还行
|