Image in article
用说话代替打字:AI 语音输入工具全景对比(开源 + 闭源)
字数 2179阅读时长 6 分钟
2026-3-29
2026-3-29
type
status
date
summary
tags
category
slug
icon
password
公众号
关键词
小宇宙播客
小红书
数字人视频号
笔记

用说话代替打字:AI 语音输入工具全景对比(开源 + 闭源)

2026 年,和 AI 交互最自然的方式不是打字——而是开口说话。一批专为「语音驱动 AI」设计的输入工具正在快速崛起,让你按一个快捷键、说出想法,文字就自动出现在光标所在的任何位置。
---

为什么「语音输入法」这个赛道突然热了?

过去的语音输入局限于手机端,精度差、延迟高,还需要联网。但两件事改变了格局:
  1. Whisper 开源(2022 年):OpenAI 把语音识别模型开放出来,精度达到商用级别,任何人都能在本地运行
  1. LLM 后处理:语音转文字之后,再用大模型润色——把「嗯那个就是说」这样的口语碎片自动清理成干净的书面语
这两个技术叠加,让「在任何 App 里随手说话输入」真正成为可能。
---

闭源产品:打磨精致,但数据去哪了?

微信输入法

中国用户最熟悉的选项,语音识别深度优化中文,微信生态内无缝衔接。但音频数据由腾讯处理,隐私边界不透明。

闪电说

主打 AI 实时转写,支持多语言,有会议录音、字幕等场景扩展。订阅制收费,云端处理。

Typeless

面向英语用户的 AI 语音输入,有 GPT 后处理,界面设计简洁。云端 API 驱动,需要联网。

豆包输入法

字节跳动出品,深度整合豆包 AI,中文场景优化好,快速录入和 AI 对话一体化。数据在字节服务器处理。
闭源产品的共同痛点:音频上传云端,隐私风险不可控;订阅费用持续累积;无法定制模型或提示词。
---

开源工具:数据不出机器,自由度拉满

1. Handless — 功能最全面的 macOS 语音输入

GitHub: ElwinLiu/handless | 许可证: MIT
Handless 从 Handy(下文介绍)fork 而来,在原版基础上大幅扩展了 STT 引擎支持:
  • 本地模型:Whisper、NeMo Parakeet、Moonshine、SenseVoice
  • 云端 API:OpenAI、Soniox
  • VAD(语音活动检测):自动过滤静音,只转写真正说话的片段
  • LLM 后处理:接入任意 LLM 清理口语杂词、重新格式化
  • 快捷键绑定提示词模板:不同场景绑定不同快捷键(比如 Ctrl+1 用于写代码注释,Ctrl+2 用于写邮件)
  • 支持 17 种语言,Intel 和 Apple Silicon 均兼容
适合谁:想要完全可配置、追求本地隐私保护,并且需要 SenseVoice 中文识别优化的用户。
---

2. Handy — 跨平台原版,最易二次开发

GitHub: cjpais/Handy | 许可证: MIT
Handless 的上游项目,也是整个开源语音输入生态的源头。Handy 的定位很清晰:「不求最好,求最可 fork」
  • 全平台支持:macOS、Windows、Linux
  • 技术栈:Tauri(Rust 后端 + React 前端),内存占用低
  • STT 引擎:Whisper Small/Medium/Turbo/Large + Parakeet V3(CPU 优化,自动语言检测)
  • VAD:Silero VAD 过滤静音
  • 支持推拉两种录音模式(toggle / push-to-talk)
  • 有 Raycast 扩展,可从 Raycast 控制录音
安装极简:
适合谁:需要 Windows/Linux 支持,或者想基于它二次开发自己产品的开发者。
---

3. Ghost Pepper — 100% 本地,Apple Silicon 专属

GitHub: matthartman/ghost-pepper | 许可证: MIT
名字来自一个梗:「完全本地运行,数据不离机,比那些融资 8000 万美元的 App 还辣。」
  • 操作极简:按住 Control 说话,松手自动转写并粘贴
  • 完全离线:WhisperKit(small.en)负责转写,Qwen 2.5(1.5B/3B)负责清理口头禅和自我纠正
  • 菜单栏 App:无 Dock 图标,开机自启,安静驻守后台
  • 可自定义 LLM 清理提示词、选择麦克风、关闭任意功能
  • 要求 macOS 14.0+,仅支持 Apple Silicon(M1 及以上)
模型首次启动自动下载,之后完全离线:
| 组件 | 模型 | 大小 |
|------|------|------|
| 语音转文字 | WhisperKit small.en | ~466 MB |
| 文本清理 | Qwen 2.5 1.5B + 3B | ~3 GB |
适合谁:对隐私极度敏感、使用 Apple Silicon Mac、主要讲英语的用户。装上即用,零配置。
---

4. Koe(声)— 极简主义,工程师审美

GitHub: missuo/koe | 许可证: MIT
Koe 是日语「声」(こえ),名字即理念:「你的声音进去,干净的文字出来,中间什么都没有。」
  • 零界面:没有主窗口,只有菜单栏状态图标 + 录音时的悬浮胶囊
  • 极小体积:安装后 < 15 MB,运行内存约 20 MB
  • 所有配置都是纯文本文件:存在 ~/.koe/ 下,用 vim / 脚本 / AI 工具批量编辑
  • 词典就是 `.txt` 文件:一行一个词,改完立即生效,无需重启
  • 技术栈:Objective-C 处理系统交互(热键、音频、剪贴板),Rust 做核心性能计算
  • 无 Chromium 依赖(对比 Electron 应用的 200+ MB)
适合谁:喜欢命令行工作流、不喜欢臃肿 GUI、想把语音输入当作「管道工具」来组合的工程师。
---

横向对比一张表

| 工具 | 平台 | 是否离线 | 隐私 | 中文支持 | 体积 | 适合场景 |
|------|------|----------|------|----------|------|----------|
| 微信输入法 | iOS/Android/Mac | ❌ 云端 | 一般 | ✅ 优秀 | - | 普通用户 |
| 闪电说 | Mac/iOS | ❌ 云端 | 一般 | ✅ 好 | - | 会议/转写 |
| Typeless | Mac | ❌ 云端 | 一般 | 有限 | - | 英语写作 |
| 豆包输入法 | Mac/iOS/Android | ❌ 云端 | 一般 | ✅ 优秀 | - | 字节生态用户 |
| Handless | macOS | ✅ 可选 | 高 | ✅ SenseVoice | 中等 | 重度定制需求 |
| Handy | Win/Mac/Linux | ✅ 本地 | 高 | 一般 | 中等 | 跨平台/二次开发 |
| Ghost Pepper | macOS (M1+) | ✅ 完全离线 | 极高 | ❌ 英语优先 | ~3.5 GB | 英语+极致隐私 |
| Koe | macOS | ✅ 可选 | 高 | ✅ | < 15 MB | 工程师/极简主义 |
---

如何选择?

你不在乎隐私,想要零门槛 → 豆包输入法(中文)或 Typeless(英文)
你在乎隐私,主要讲中文 → Handless(SenseVoice 中文识别最好,支持 LLM 后处理和多快捷键模板)
你在乎隐私,主要讲英文,用 Apple Silicon → Ghost Pepper(装完即用,完全离线,按住 Control 就能说)
你是工程师,想要极简且可脚本化 → Koe(15 MB、纯文本配置、可被 Claude Code 等工具操控)
你用 Windows 或 Linux → Handy(唯一支持全平台的开源方案)
---

技术选型小结

这波开源语音输入工具都有一个共同的技术路径:
区别只在于:
  • STT 引擎:Whisper(通用)vs SenseVoice(中文强)vs WhisperKit(Apple Neural Engine 加速)
  • LLM 后处理:本地(Qwen/LLaMA)vs 云端(GPT-4o/Claude)
  • 界面哲学:有 UI 可配置(Handless/Handy)vs 纯文本配置(Koe)vs 零配置(Ghost Pepper)
随着本地模型越来越小、越来越快,「语音 → AI」这条路会越走越顺。现在入坑开源工具,既保住了隐私,又能随时自定义提示词——用语音驱动 AI,才是 2026 年工程师的正确打开方式。
---

参考链接

  • Koe — missuo/koe
上一篇
如何在 54 分 19 秒 20 毫秒内制作高质量视频
下一篇
10亿美元的教训:OpenAI 为何放弃 Sora?