V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
Morrowless
V2EX  ›  全球工单系统

[求助] 同一个文件夹下几百万张图片的分类及后续查询

  •  
  •   Morrowless · 169 天前 · 514 次点击
    这是一个创建于 169 天前的主题,其中的信息可能已经有所发展或是发生改变。

    事情是这样的

    一台图片服务器硬盘崩了,通过数据恢复把图片恢复了出来。

    然而,目录结构以及文件名丢失。

    现在恢复出来的情况是同一个文件夹下有九百多万张图片。

    需求

    这些图片可以通过分辨率先进行初筛,只需要其中大概 2/3 的特定分辨率的图片。

    筛出来的图片在固定位置有固定格式的附加文字,需要通过 OCR 批量去识别出来并进行分类。

    由于图片数量实在太多,最好能有一个方便的界面来通过关键字进行查询。

    如果有大佬做过类似的项目可以详谈

    Telegram

    2 条回复    2023-11-10 23:13:16 +08:00
    Qetesh
        1
    Qetesh  
       169 天前
    Umi-OCR
    NoOneNoBody
        2
    NoOneNoBody  
       169 天前
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    result = ocr.ocr(cvim, det=True, cls=False)
    if withpos: return result
    return [x[-1][0] for y in result for x in y]

    python 就四行,没了,英语就将 ch 改成 en
    withpos==True 是文字并带上位置信息,False 是只输出文字
    cvim 是 opencv 读取图片后的格式,numpy.ndarray
    可以多进程并发
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   909 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 19:59 · PVG 03:59 · LAX 12:59 · JFK 15:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.