V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
vevlins
V2EX  ›  程序员

离线语音识别方案

  •  
  •   vevlins · 2021-01-24 16:40:54 +08:00 · 4155 次点击
    这是一个创建于 1401 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请教下各位,实现离线语音识别能力(较长时间的语音转写,仅包含中文即可),有什么简单的方案吗?

    看了下 deepspeech 的一些实现,预训练的包效果都不怎么样,自己训练的难度不小。

    或者有什么方案可以利用系统的能力,比如 windows 有一个 sapi,可以实现长时间的语音转文本吗?(10 分钟以上)

    12 条回复    2023-02-05 22:17:05 +08:00
    a570295535
        1
    a570295535  
       2021-01-24 17:51:36 +08:00 via Android
    分段吧
    qq316107934
        2
    qq316107934  
       2021-01-24 18:07:29 +08:00
    同想知道比较好的离线中文语音识别方案,最好是流式的
    zjsxwc
        3
    zjsxwc  
       2021-01-24 18:15:20 +08:00 via Android
    科大讯飞的翻译机 不都可以在没有网络的地方翻译使用吗
    processzzp
        4
    processzzp  
       2021-01-24 18:19:37 +08:00 via iPhone
    去讨论手机应用窃听的帖子下面看看吧,那里个个都拍胸脯说语音识别完全不是问题,还能不依赖麦克风工作。

    手动 [Doge]
    mmlmml1
        5
    mmlmml1  
       2021-01-24 18:37:45 +08:00
    如果是 Apple 平台的话,macOS 和 iOS 自带有 Speech 库,有离线识别的功能,不过效果一般,还要用户权限授权
    12tall
        6
    12tall  
       2021-01-25 08:41:55 +08:00
    https://alphacephei.com/vosk/ 之前有用过,但是效果并不是特别理想
    jiabing520a
        7
    jiabing520a  
       2021-01-25 09:47:31 +08:00
    系统和浏览器一般都自带接口,但是似乎有 BUG,概率出现进度条在走,实际上没声音播放 api.uuin.top/tts/
    Flymachine
        8
    Flymachine  
       2021-01-25 10:17:17 +08:00
    科大讯飞有这技术,中文识别率还可以吧。我买过用它技术的录音笔
    Flymachine
        9
    Flymachine  
       2021-01-25 10:18:25 +08:00
    科大讯飞的技术支持中英文语音实时转文字,纯英文录音非实时转文字。
    lemon94
        10
    lemon94  
       2021-01-25 14:21:26 +08:00   ❤️ 1
    前科大讯飞员工,恰好是翻译机项目组的。看上边有人提到就出来吐槽下,离线翻译的识别率真的惨不忍睹。。。
    orannge
        11
    orannge  
       2021-01-25 19:32:11 +08:00
    讯飞的可以试试,当然和在线是不能比的。

    @processzzp 不同场景准确率要求不一样吧,日常使用要求基本准确,用作广告甚至可以只识别关键字
    exploreexe
        12
    exploreexe  
       2023-02-05 22:17:05 +08:00
    科大讯飞的翻译机就是个纯垃圾,还有脸卖 2000 多。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3352 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:17 · PVG 08:17 · LAX 16:17 · JFK 19:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.