爱意满满的作品展示区。
heimoshuiyu

偶尔有转录和翻译字幕的需求,于是写了个 使用 ffmpeg(wasm) + whisper 语音转文字 + 大模型翻译字幕的 *网页工具

  •  
  •   heimoshuiyu · Jun 22, 2025 · 1903 views
    This topic created in 328 days ago, the information mentioned may be changed or developed.
    起因是偶尔需要帮同事转录字幕,或者自己看一些没有字幕的电影想要高质量的双语字幕。

    网上转了一圈基本都是需要安装客户端,下载模型。我想这是发个 API 就能解决的事情,网页就能做吧。于是写了个网页。并且加入了 ffmpeg(wasm),提前把媒体转录成 16kHZ 单声道 opus 格式,降低网络传输压力。

    后面发现自己想要使用大模型翻译字幕,网上转了一圈发现大部分是使用 LLM 一句一句翻译,完全没有利用到 LLM 结合上下文语境做翻译的优势。于是自己实现了一版,一次翻译 10 条字幕。

    前端部署在 vercel 了 https://whisper-web-one.vercel.app/
    前端代码开源在 https://github.com/heimoshuiyu/whisper-web
    后端是自建的 https://github.com/heimoshuiyu/whisper-fastapi 在 4060ti 上使用 large-v2 模型,或者使用其他任何兼容 OpenAI API whisper 格式的后端都可以

    显卡闲着也是闲着免费提供给有需要的朋友使用,不过我还在能不能靠这个赚点零食钱,如果有需要稳定 API 或者自建需要技术支持的可以联系我 wx hmsy39
    5 replies    2025-06-23 09:36:42 +08:00
    shoaly
        1
    shoaly  
       Jun 22, 2025
    这个是要把整个电影传上去吗?
    heimoshuiyu
        2
    heimoshuiyu  
    OP
       Jun 22, 2025 via Android
    @shoaly 如果你选择了整个电影的话,那么它会在本地调用 FFMPEG,先把电影转换成很小的音频,然后再上传到 API 。
    shoaly
        3
    shoaly  
       Jun 22, 2025
    感觉这玩意应该是一个本地项目才对, 不然通过网页传一个 2g 的电影 属实有点浪费时间和资源了.
    heimoshuiyu
        4
    heimoshuiyu  
    OP
       Jun 22, 2025
    @shoaly 会先通过本地 ffmpeg.wasm 压成大约 50m 的音频( 2 个小时)再上传的啦
    340746
        5
    340746  
       Jun 23, 2025 via Android   ❤️ 1
    可以再加一个用 uvr5 去除背景音,提高识别准确度
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2969 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 416ms · UTC 05:24 · PVG 13:24 · LAX 22:24 · JFK 01:24
    ♥ Do have faith in what you're doing.