开发了一个支持上下文感知的语音转文字的输入法客户端 AriaType, 希望能获得大家技术/产品上的一些建议

爱意满满的作品展示区。

先放截图看一看效果.

老实说，我觉得 Typeless wisperflow 这样的产品复杂度并不高，虽然体验确实不错，但一个月几十块钱实在觉得不够划算。

如果我自己去购买火山引擎或 DeepSeek 的 API 服务，像我这种高频使用的情况，一个月都不到一杯蜜雪冰城柠檬水。

所以我干脆开发一个。整体的功能架构比较简约，针对中文/英文选择用 SenseVoice 这类模型来提升准确率和速度，其他语言则用 Whisper 模型，不过它的速度会慢一点。在录制过程中，会根据当前激活的窗口做内容识别，把里面的高频词汇提取出来，作为 STT 引擎和润色引擎的上下文信息。

有了这些信息之后，润色过程中，根据用户的工作上下文去做智能语法词汇纠正，准确率会有非常明显的提升。当然，个人的发音标准其实也非常重要，偏离太远了很难再识别回来。

整体的效果我觉得已经很接近商业化的产品了。目前从三月份开始开发到现在，断断续续大概花了十块钱的 STT 和润色 Token 花费，不过整体开发大概花了一千块钱，主要是太烧 Token ，估计有二十亿吧。因为我一直开的是 ralph loop 功能，最近我全量换到了 GPT 5.5 ，确实比之前轻松不少，很多问题和功能设计一点就通，不像之前用 GLM 气得我火冒三丈（智谱觉得我在薅羊毛把我账号封了）。

关于后面的规划：

我想的是，既然能作为语音输入了，那为什么不可以用语音做别的呢？目前正在开发另一个 library ，是一个 computer use 的 SDK ，我希望能在后面让 AriaType 支持语音控制电脑，有点类似于 voice OS.

希望分享出来能和大家一起交流。

关于源码： https://github.com/joe223/AriaType

语音

上下文

控制

15 replies • 2026-05-20 13:03:32 +08:00

joe223

May 12

不好意思，v0.5.1 有点 bug ，等我开完会重新 build 一个 0.5.2

yukminnie

May 12

白天模型下载超级慢，晚上突然下载好了。简单试了一下在线的火山的语音引擎，录入的时候好像没实时输出?

joe223

May 13

@yukminnie 1. 国内的化下载模型会走 mirror 站点，是不是开 VPN 了呀？ 2. 实时 STT 准确率略低于录音 STT ，所以目前倾向先录制，结束后出结果。为了尽可能快出结果，目前 PCM 数据是流式发送的，基本上 300ms 内出

yukminnie

May 13

@joe223 对，是开了代理的。模型下载好了以后使用纯本地模式，观察了一下后台内存占用，整体好像都没有超过 500 兆，开了本地模型修正也能这么省的吗？

joe223

May 13

@yukminnie 当前用的本地 STT 模型主推 sensevoice ，比较小巧精悍。如果开 polish 的话，很难了，2B 模型才有比较好的表现。建议用 DeepSeek V4 flash , 非常省钱

yukminnie

May 13

@joe223 多谢解答。我就是想试试纯本地模式可以达到什么效果。也就是说，这个 500 兆的内存占用，甚至已经包含了本地千问这个修正模型的占用了？日常用这个字节配合 Deepseek 确实就很好了。

joe223

May 13

@yukminnie 校准一下哈，500 兆主要是本地 STT 模型的占用，如果开启本地 polish 模型的话，估计 >1G 。

如果不是性能非常顶级的机器，我比较建议的使用本地 STT+云端 DeepSeek 。

因为现在做了上下文管理，我个人体感识别校准效果和 typeless 等商业化产品差不多了

joe223

May 13

（但是 2B 以内的本地 llm 模型其实指令遵从性不太行，最好还是别开

yukminnie

May 13

@joe223 意思是云端服务中的文本优化，和本地 AI 中的文本润色，实际上是两码事？嗯，那我再研究研究。

yukminnie

May 13

@joe223 纯本地修正的话，不追求非常好的效果，如果整体内存能保证在 1G 左右，我感觉到还可以接受。现在用这个 Deepseek 的修正，我感觉速度非常可以了。

joe223

May 14

@yukminnie 功能定位上是一回事，但是两者技术上实现不同。一个是 LocalPolishEngine ，另一个是 CloudPolishEngine 。LocalPolish 毕竟是小模型哈，还是不如云端几十上百 B 的大家伙

joe223

May 14

也考虑到本地运行的负载限制，所以目前版本中最多给到 Gemma4 2B 版本的选项

joe223

May 14

@yukminnie 后面其实想做 computer-use 的能力，可以语音交互操作电脑，或者发出指令让 Agent 操作电脑，不知有无这方面需求？

yukminnie

May 14

我对这个语音控制电脑这个还不是太有概念，回来再熟悉一下软件，比心。

joe223

May 20

@yukminnie 💐