V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
amiwrong123
V2EX  ›  程序员

pdf 复制出来是乱码 怎么解决

  •  1
     
  •   amiwrong123 · 230 天前 · 2005 次点击
    这是一个创建于 230 天前的主题,其中的信息可能已经有所发展或是发生改变。

    pdf 是 mindshare 的书籍(出版时间大概 2000 年),看起来每个单词都是可以复制的,但是复制出来却是乱码。

    用了好几种编辑器打开,复制都是乱码:wps 、SumatraPDF 、adobe reader 、zerote 。

    网上看的方法: https://www.bilibili.com/read/cv23470141/ 查看了字体类型,去网站里搜,也搜不到。

    PS:之前用 python 想读取这个 pdf 里面的内容,发现是程序读取出来都是乱码的。结果发现复制 都是乱码的。。

    13 条回复    2023-09-11 08:41:16 +08:00
    yinmin
        1
    yinmin  
       230 天前 via iPhone
    OCR
    kokutou
        2
    kokutou  
       230 天前 via Android
    内嵌字体,字体和文字不是对应的,参考起点之类的在线加密。。。
    yinmin
        3
    yinmin  
       230 天前
    运行 QQ 电脑版,然后用快捷键 ctrl-alt-A ,选中屏幕区域点击“屏幕识图”按钮,等几秒就能 copy 文字了,识别率还是比较好的。
    Puteulanus
        4
    Puteulanus  
       230 天前
    不好识别的话淘宝还有代手打的
    Ericcccccccc
        5
    Ericcccccccc  
       230 天前
    截图到微信里然后用自带的 ocr 吧
    n1cogrv
        6
    n1cogrv  
       230 天前
    @kokutou #2 @amiwrong123
    要真是这样的话,OP 直接考虑 OCR 吧,不要考虑从数字层面读取了。

    可以看看 https://github.com/hiroi-sora/Umi-OCR
    amiwrong123
        7
    amiwrong123  
    OP
       230 天前
    @n1cogrv #6
    试了下这个项目,OCR 还可以。
    哎,坑爹的 pdf
    abc8678
        8
    abc8678  
       230 天前 via Android
    我也遇到过,在某之家问,还被嘲笑了,说复制都不会
    amiwrong123
        9
    amiwrong123  
    OP
       230 天前
    @abc8678 #8
    但比较神奇的是,在这个 pdf 里,搜索单词,却又是可以的。
    cr51k2
        10
    cr51k2  
       230 天前 via Android
    pdf 转 word 没,或者一定要纯文字吗?之前我报价做单,有些标书是乱扫描的,懒得搞就直接截图放 excel 然后报价了。
    如果工作下一步骤不是机器的话,还可以变通一下。
    Jwyt
        11
    Jwyt  
       230 天前
    字体问题,无解的,最好最有效地办法就是 ocr
    kergee
        12
    kergee  
       229 天前
    OCR ,然后让 GPT 整理
    296727
        13
    296727  
       229 天前
    有可能内外两层,跟蒙层一样
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1088 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 23:15 · PVG 07:15 · LAX 16:15 · JFK 19:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.