V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
black11black
V2EX  ›  问与答

话说 Python 调用 OCR 有什么比较成熟的方案吗?

  •  
  •   black11black · Oct 25, 2020 via Android · 2834 views
    This topic created in 2020 days ago, the information mentioned may be changed or developed.
    如题,有大量漫画图片需要识别,每张图是纯色背景,上面是印刷体的字(数字版,非扫描),含有中文、英文、日文。

    请问有成熟的 OCR 方案吗?最好是 python 的,因为撸起来比较快,没有的话 java 也行
    13 replies    2020-10-26 16:29:30 +08:00
    just1
        1
    just1  
       Oct 25, 2020
    成熟当然是调 api
    black11black
        2
    black11black  
    OP
       Oct 25, 2020 via Android
    @just1 没有本地开源的方案吗,api 主要问题是 qps 跟不上
    renmu123
        3
    renmu123  
       Oct 25, 2020 via Android
    pytesseract 你想要开箱即用的话只有找成熟的 api
    yangyaofei
        4
    yangyaofei  
       Oct 25, 2020 via Android
    cnocr
    djoiwhud
        5
    djoiwhud  
       Oct 25, 2020
    估计只能花钱买付费的。免费的东西准确率估计非常低。当然,你的需求估计付费的准确率也不会很高。
    minami
        7
    minami  
       Oct 25, 2020
    百度的 paddleocr
    xchaoinfo
        8
    xchaoinfo  
       Oct 25, 2020 via Android
    有 GPU 的话,自己网上找个 pytorch 项目训练下,
    没有的话,tesseract 自己训练下,识别率还可以,就是慢,pytesseract 可以调用
    免费的 API 有限制,付费吧
    black11black
        9
    black11black  
    OP
       Oct 26, 2020
    @jackrelative 感谢回复,我感觉我这已经是实验室环境了,纯色背景+字,对 OCR 这个领域没什么了解,做的这么菜的吗。
    Hconk
        10
    Hconk  
       Oct 26, 2020 via iPhone
    chineseocr,你这种非自然场景的印刷体不要太简单。
    Hconk
        11
    Hconk  
       Oct 26, 2020 via iPhone
    @Hconk 日文不行。
    black11black
        12
    black11black  
    OP
       Oct 26, 2020
    @Hconk 有成熟的开源项目吗,中文的
    Hconk
        13
    Hconk  
       Oct 26, 2020
    @black11black github 搜一下就有,chineseocr
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1057 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 22:57 · PVG 06:57 · LAX 15:57 · JFK 18:57
    ♥ Do have faith in what you're doing.