V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SeleiXi
V2EX  ›  Windows

复制 pdf 内的文本,突然无法复制段落与段落之间的换行符

  •  
  •   SeleiXi · 300 天前 · 1144 次点击
    这是一个创建于 300 天前的主题,其中的信息可能已经有所发展或是发生改变。
    PDF 内显示的文本:
    text

    text

    会复制成:
    text
    text


    一小时前的时候复制还没事,不知道这个要调什么设置才能改回去?

    另外想问下大佬们想把 pdf 里面的文字转文本,而保留段落之间的隔行都是怎么实现的?我用的 OCR 工具以及直接复制貌似都会默认把隔行给去掉。
    2 条回复    2024-01-26 10:56:40 +08:00
    ddzzhen
        1
    ddzzhen  
       300 天前 via Android   ❤️ 1
    福昕和 abbyy 的收费版可以,保留原格式哪怕不需要 ocr 的文档都挺难的
    DsuineGP
        2
    DsuineGP  
       300 天前   ❤️ 1
    版式还原很难做的, 因为涉及到图文表格形状混排等多种情况
    之前看到 https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7/ppstructure/pdf2word 这项目, 可以试试
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3168 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 12:22 · PVG 20:22 · LAX 04:22 · JFK 07:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.