V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jamel
V2EX  ›  程序员

好像发现 没有 文件转换 这类的库啊?

  •  
  •   jamel · 349 天前 · 2252 次点击
    这是一个创建于 349 天前的主题,其中的信息可能已经有所发展或是发生改变。
    几乎市面上的 html 互转 pdf ,html 互转 word 的工具都要收费,都想打算自己做一个了。
    python 好像有一个,java 有一个 转 pdf 的,但是没有转 word 的。
    估计只能做一个了。。。难搞
    18 条回复    2024-01-12 10:46:42 +08:00
    murmur
        1
    murmur  
       349 天前
    html 转 pdf 用无头浏览器打印就行了

    html 转 word 效果会很差 不建议使用 还是直接转 pdf 吧

    word 转 html 也是 得用在线 office 预览

    pdf 转 html 这个得 ocr 识别 收费没毛病

    基于你的需求除了 html 转 pdf 估计都做不出来
    xtreme1
        2
    xtreme1  
       349 天前
    你比 knuth 还牛逼
    wWjd5V5L0636B5YV
        3
    wWjd5V5L0636B5YV  
       349 天前
    之前做过 docx 转 html 的需求 恶心死了 关键字替换组件更恶心
    wWjd5V5L0636B5YV
        4
    wWjd5V5L0636B5YV  
       349 天前
    @xiaogang530 用 Java 在后台硬拼接的 然后上传到 fastdfs
    kilasuelika
        5
    kilasuelika  
       349 天前 via Android   ❤️ 1
    pandoc 不能满足要求吗
    zydxn
        6
    zydxn  
       349 天前
    你自己做一个试试呗,别说转换了,导出 word 做的就很恶心,大多都是基于 FTL ( xml 格式)去做占位符和替换。
    coyove
        8
    coyove  
       349 天前
    html 转 pdf 还好,html 转 word 的需求点在哪,我们学校 60 岁的老教授都知道装个万能复制的插件了
    siweipancc
        9
    siweipancc  
       349 天前 via iPhone
    直接调 C 库啊,你还在折腾什么?一大堆开源的工具,非得自己实现个四不像?
    charlestang
        10
    charlestang  
       349 天前
    不是有什么 pandoc 么?支持狂多格式互转。另外以前我做过 html 转 pdf ,有一个叫 wkhtmltopdf 的库,挺好用,转得效果不错的。还能转图片。
    Mithril
        11
    Mithril  
       349 天前
    唯一能正常支持几乎所有源文件效果的转换格式的,就是 HTML 转 PDF 。
    严格来说这都不能叫格式转换,而是“渲染”和“打印”。把 HTML 加 CSS 通过渲染得出结果,然后按照打印的方式将渲染结果输出到 PDF 里。
    你可以用 puppeteer 等工具做到这一点,比如前面说的 wkhtmltopdf ,实际原理都是一样的,要么套了 Chrome 或者 CEF ,要么直接 WebKit 。都是用浏览器来做的,这样才能做到完美转换和渲染样式。

    其他方法和格式转换都属于“勉强能用”。只有 PDF 这种可以通过虚拟打印机来做最终输出的格式,才能作为能适配大多数格式的转换目标。

    所以你看大多格式都能转成 PDF ,但 PDF 再转回去就有各种问题了。
    Aixtuz
        12
    Aixtuz  
       349 天前
    之前用过 Pandoc ,对格式要求不苛刻的话,感觉还行。
    weijancc
        13
    weijancc  
       349 天前
    node 有一个 html 转 word 的, 效果还可以, https://github.com/privateOmega/html-to-docx
    Skifary
        14
    Skifary  
       349 天前
    因为文件转换特别是 pdf 几乎是没有通用转换方法的,只能根据特定的格式做解析去解决特定的需求
    abersheeran
        15
    abersheeran  
       348 天前
    因为别人不想免费开发这种对于很多人都是刚需的东西。
    duzhuo
        16
    duzhuo  
       348 天前 via Android
    pandoc 咯
    jamel
        17
    jamel  
    OP
       348 天前
    @duzhuo pandoc 是不是收费的?
    dode
        18
    dode  
       348 天前
    今年搞了 html 转 word 的功能,可以实现文字、图片、表格的全部转换
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5225 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 09:26 · PVG 17:26 · LAX 01:26 · JFK 04:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.