爱意满满的作品展示区。
joe223

开发了一个支持上下文感知的语音转文字的输入法客户端 AriaType, 希望能获得大家技术/产品上的一些建议

  •  
  •   joe223 ·
    joe223 · May 12 · 1151 views

    先放截图看一看效果.

    老实说,我觉得 Typeless wisperflow 这样的产品复杂度并不高,虽然体验确实不错,但一个月几十块钱实在觉得不够划算。

    如果我自己去购买火山引擎或 DeepSeek 的 API 服务,像我这种高频使用的情况,一个月都不到一杯蜜雪冰城柠檬水。

    所以我干脆开发一个。整体的功能架构比较简约,针对中文/英文选择用 SenseVoice 这类模型来提升准确率和速度,其他语言则用 Whisper 模型,不过它的速度会慢一点。在录制过程中,会根据当前激活的窗口做内容识别,把里面的高频词汇提取出来,作为 STT 引擎和润色引擎的上下文信息。

    有了这些信息之后,润色过程中,根据用户的工作上下文去做智能语法词汇纠正,准确率会有非常明显的提升。当然,个人的发音标准其实也非常重要,偏离太远了很难再识别回来。

    整体的效果我觉得已经很接近商业化的产品了。目前从三月份开始开发到现在,断断续续大概花了十块钱的 STT 和润色 Token 花费,不过整体开发大概花了一千块钱,主要是太烧 Token ,估计有二十亿吧。因为我一直开的是 ralph loop 功能,最近我全量换到了 GPT 5.5 ,确实比之前轻松不少,很多问题和功能设计一点就通,不像之前用 GLM 气得我火冒三丈(智谱觉得我在薅羊毛把我账号封了)。

    关于后面的规划:

    我想的是,既然能作为语音输入了,那为什么不可以用语音做别的呢?目前正在开发另一个 library ,是一个 computer use 的 SDK ,我希望能在后面让 AriaType 支持语音控制电脑,有点类似于 voice OS.

    希望分享出来能和大家一起交流。

    关于源码: https://github.com/joe223/AriaType

    15 replies    2026-05-20 13:03:32 +08:00
    joe223
        1
    joe223  
    OP
       May 12
    不好意思,v0.5.1 有点 bug ,等我开完会重新 build 一个 0.5.2
    yukminnie
        2
    yukminnie  
       May 12
    白天模型下载超级慢,晚上突然下载好了。简单试了一下在线的火山的语音引擎,录入的时候好像没实时输出?
    joe223
        3
    joe223  
    OP
       May 13
    @yukminnie 1. 国内的化下载模型会走 mirror 站点,是不是开 VPN 了呀? 2. 实时 STT 准确率略低于录音 STT ,所以目前倾向先录制,结束后出结果。为了尽可能快出结果,目前 PCM 数据是流式发送的,基本上 300ms 内出
    yukminnie
        4
    yukminnie  
       May 13
    @joe223 对,是开了代理的。模型下载好了以后使用纯本地模式,观察了一下后台内存占用,整体好像都没有超过 500 兆,开了本地模型修正也能这么省的吗?
    joe223
        5
    joe223  
    OP
       May 13
    @yukminnie 当前用的本地 STT 模型主推 sensevoice ,比较小巧精悍。如果开 polish 的话,很难了,2B 模型才有比较好的表现。建议用 DeepSeek V4 flash , 非常省钱
    yukminnie
        6
    yukminnie  
       May 13
    @joe223 多谢解答。我就是想试试纯本地模式可以达到什么效果。也就是说,这个 500 兆的内存占用,甚至已经包含了本地千问这个修正模型的占用了?日常用这个字节配合 Deepseek 确实就很好了。
    joe223
        7
    joe223  
    OP
       May 13
    @yukminnie 校准一下哈,500 兆主要是本地 STT 模型的占用,如果开启本地 polish 模型的话,估计 >1G 。

    如果不是性能非常顶级的机器,我比较建议的使用本地 STT+云端 DeepSeek 。

    因为现在做了上下文管理,我个人体感识别校准效果和 typeless 等商业化产品差不多了
    joe223
        8
    joe223  
    OP
       May 13
    (但是 2B 以内的本地 llm 模型其实指令遵从性不太行,最好还是别开
    yukminnie
        9
    yukminnie  
       May 13
    @joe223 意思是云端服务中的文本优化,和本地 AI 中的文本润色,实际上是两码事?嗯,那我再研究研究。
    yukminnie
        10
    yukminnie  
       May 13
    @joe223 纯本地修正的话,不追求非常好的效果,如果整体内存能保证在 1G 左右,我感觉到还可以接受。现在用这个 Deepseek 的修正,我感觉速度非常可以了。
    joe223
        11
    joe223  
    OP
       May 14
    @yukminnie 功能定位上是一回事,但是两者技术上实现不同。一个是 LocalPolishEngine ,另一个是 CloudPolishEngine 。LocalPolish 毕竟是小模型哈,还是不如云端几十上百 B 的大家伙
    joe223
        12
    joe223  
    OP
       May 14
    也考虑到本地运行的负载限制,所以目前版本中最多给到 Gemma4 2B 版本的选项
    joe223
        13
    joe223  
    OP
       May 14
    @yukminnie 后面其实想做 computer-use 的能力,可以语音交互操作电脑,或者发出指令让 Agent 操作电脑,不知有无这方面需求?
    yukminnie
        14
    yukminnie  
       May 14
    我对这个语音控制电脑这个还不是太有概念,回来再熟悉一下软件,比心。
    joe223
        15
    joe223  
    OP
       May 20
    @yukminnie 💐
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   867 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 19:49 · PVG 03:49 · LAX 12:49 · JFK 15:49
    ♥ Do have faith in what you're doing.