V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
42alex
V2EX  ›  Python

验证码识别问题

  •  
  •   42alex · 2019-11-23 21:08:09 +08:00 · 3818 次点击
    这是一个创建于 1856 天前的主题,其中的信息可能已经有所发展或是发生改变。

    验证码有干扰线,先用了 8 邻域降噪的方法,没有效果,各位有什么好的方法吗?样例图片地址: https://s2.ax1x.com/2019/11/23/Mqdla6.jpg

    8 条回复    2019-11-30 21:29:53 +08:00
    dearmymy
        1
    dearmymy  
       2019-11-24 01:11:54 +08:00
    如果单纯为了识别。
    1,找个打码网站充值 50 块
    2,收集几千个样本
    3,随便找个机器学习框架学习下。
    Marsss
        2
    Marsss  
       2019-11-24 11:08:56 +08:00
    cnn 之类的分类算法是挺简单粗暴的,但是如果是之前没有了解过,对于这种简单的验证码,学习成本略高了点,不如自己写算法分割,用 sklearn 这种会轻松很多。先多观察样本规律,根据规律来写算法。比如你这里颜色都一样,先统计像素的直方图,调试选取目标像素,分分钟去除干扰线。然后又没有粘连,就比较好切。一旦好切,也就意味着这验证码废了。最后建议,注意合规。
    42alex
        3
    42alex  
    OP
       2019-11-24 13:22:08 +08:00
    @Marsss 这个验证码位置不规律,没法切割,用机器学习的方法的话,成本有点大,我现在换了个思路,就是验证码与干扰线的颜色不同,然后对这两种颜色进行区分,然后将非验证码的的点都重置为背景色,效果会好一些,再使用 pytesseract 进行识别,识别率比之前高一些,效果: https://s2.ax1x.com/2019/11/24/MLhva8.jpg
    42alex
        4
    42alex  
    OP
       2019-11-24 13:23:40 +08:00
    @dearmymy 自己写的练习程序用这个方法成本略高,不过可以试试,谢谢指导!
    heyhumor
        5
    heyhumor  
       2019-11-24 20:20:35 +08:00
    用 opencv 可以提取水平线过滤掉,具体方法不太记得了。。。
    42alex
        6
    42alex  
    OP
       2019-11-24 20:57:22 +08:00
    @heyhumor 干扰线还有斜的,也能过滤吗?
    aaronhua
        7
    aaronhua  
       2019-11-28 10:02:45 +08:00
    试过跟着这个博客做,可以过滤干扰线。https://www.cnblogs.com/qqandfqr/p/7866650.html
    42alex
        8
    42alex  
    OP
       2019-11-30 21:29:53 +08:00 via Android
    @aaronhua 我来学习一下,谢谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6048 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 02:17 · PVG 10:17 · LAX 18:17 · JFK 21:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.