Why this AI voice input guide is useful
This guide is for people searching for the best AI voice input tools, AI dictation apps, or speech-to-text workflows. It compares accuracy, latency, language support, privacy, and workflow fit so you can choose the right setup faster.
type
status
date
summary
tags
category
slug
icon
password
公众号
关键词
小宇宙播客
小红书
数字人视频号
笔记
用说话代替打字:AI 语音输入工具全景对比(开源 + 闭源)
2026 年,和 AI 交互最自然的方式不是打字——而是开口说话。一批专为「语音驱动 AI」设计的输入工具正在快速崛起,让你按一个快捷键、说出想法,文字就自动出现在光标所在的任何位置。
---
为什么「语音输入法」这个赛道突然热了?
过去的语音输入局限于手机端,精度差、延迟高,还需要联网。但两件事改变了格局:
- Whisper 开源(2022 年):OpenAI 把语音识别模型开放出来,精度达到商用级别,任何人都能在本地运行
- LLM 后处理:语音转文字之后,再用大模型润色——把「嗯那个就是说」这样的口语碎片自动清理成干净的书面语
这两个技术叠加,让「在任何 App 里随手说话输入」真正成为可能。
---
闭源产品:打磨精致,但数据去哪了?
微信输入法
中国用户最熟悉的选项,语音识别深度优化中文,微信生态内无缝衔接。但音频数据由腾讯处理,隐私边界不透明。
闪电说
主打 AI 实时转写,支持多语言,有会议录音、字幕等场景扩展。订阅制收费,云端处理。
Typeless
面向英语用户的 AI 语音输入,有 GPT 后处理,界面设计简洁。云端 API 驱动,需要联网。
豆包输入法
字节跳动出品,深度整合豆包 AI,中文场景优化好,快速录入和 AI 对话一体化。数据在字节服务器处理。
闭源产品的共同痛点:音频上传云端,隐私风险不可控;订阅费用持续累积;无法定制模型或提示词。
---
开源工具:数据不出机器,自由度拉满
1. Handless — 功能最全面的 macOS 语音输入
GitHub:
ElwinLiu/handless | 许可证: MITHandless 从 Handy(下文介绍)fork 而来,在原版基础上大幅扩展了 STT 引擎支持:
- 本地模型:Whisper、NeMo Parakeet、Moonshine、SenseVoice
- 云端 API:OpenAI、Soniox
- VAD(语音活动检测):自动过滤静音,只转写真正说话的片段
- LLM 后处理:接入任意 LLM 清理口语杂词、重新格式化
- 快捷键绑定提示词模板:不同场景绑定不同快捷键(比如
Ctrl+1用于写代码注释,Ctrl+2用于写邮件)
- 支持 17 种语言,Intel 和 Apple Silicon 均兼容
适合谁:想要完全可配置、追求本地隐私保护,并且需要 SenseVoice 中文识别优化的用户。
---
2. Handy — 跨平台原版,最易二次开发
GitHub:
cjpais/Handy | 许可证: MITHandless 的上游项目,也是整个开源语音输入生态的源头。Handy 的定位很清晰:「不求最好,求最可 fork」。
- 全平台支持:macOS、Windows、Linux
- 技术栈:Tauri(Rust 后端 + React 前端),内存占用低
- STT 引擎:Whisper Small/Medium/Turbo/Large + Parakeet V3(CPU 优化,自动语言检测)
- VAD:Silero VAD 过滤静音
- 支持推拉两种录音模式(toggle / push-to-talk)
- 有 Raycast 扩展,可从 Raycast 控制录音
安装极简:
适合谁:需要 Windows/Linux 支持,或者想基于它二次开发自己产品的开发者。
---
3. Ghost Pepper — 100% 本地,Apple Silicon 专属
GitHub:
matthartman/ghost-pepper | 许可证: MIT名字来自一个梗:「完全本地运行,数据不离机,比那些融资 8000 万美元的 App 还辣。」
- 操作极简:按住 Control 说话,松手自动转写并粘贴
- 完全离线:WhisperKit(small.en)负责转写,Qwen 2.5(1.5B/3B)负责清理口头禅和自我纠正
- 菜单栏 App:无 Dock 图标,开机自启,安静驻守后台
- 可自定义 LLM 清理提示词、选择麦克风、关闭任意功能
- 要求 macOS 14.0+,仅支持 Apple Silicon(M1 及以上)
模型首次启动自动下载,之后完全离线:
| 组件 | 模型 | 大小 |
|------|------|------|
| 语音转文字 | WhisperKit small.en | ~466 MB |
| 文本清理 | Qwen 2.5 1.5B + 3B | ~3 GB |
适合谁:对隐私极度敏感、使用 Apple Silicon Mac、主要讲英语的用户。装上即用,零配置。
---
4. Koe(声)— 极简主义,工程师审美
GitHub:
missuo/koe | 许可证: MITKoe 是日语「声」(こえ),名字即理念:「你的声音进去,干净的文字出来,中间什么都没有。」
- 零界面:没有主窗口,只有菜单栏状态图标 + 录音时的悬浮胶囊
- 极小体积:安装后 < 15 MB,运行内存约 20 MB
- 所有配置都是纯文本文件:存在
~/.koe/下,用 vim / 脚本 / AI 工具批量编辑
- 词典就是 `.txt` 文件:一行一个词,改完立即生效,无需重启
- 技术栈:Objective-C 处理系统交互(热键、音频、剪贴板),Rust 做核心性能计算
- 无 Chromium 依赖(对比 Electron 应用的 200+ MB)
适合谁:喜欢命令行工作流、不喜欢臃肿 GUI、想把语音输入当作「管道工具」来组合的工程师。
---
横向对比一张表
| 工具 | 平台 | 是否离线 | 隐私 | 中文支持 | 体积 | 适合场景 |
|------|------|----------|------|----------|------|----------|
| 微信输入法 | iOS/Android/Mac | ❌ 云端 | 一般 | ✅ 优秀 | - | 普通用户 |
| 闪电说 | Mac/iOS | ❌ 云端 | 一般 | ✅ 好 | - | 会议/转写 |
| Typeless | Mac | ❌ 云端 | 一般 | 有限 | - | 英语写作 |
| 豆包输入法 | Mac/iOS/Android | ❌ 云端 | 一般 | ✅ 优秀 | - | 字节生态用户 |
| Handless | macOS | ✅ 可选 | 高 | ✅ SenseVoice | 中等 | 重度定制需求 |
| Handy | Win/Mac/Linux | ✅ 本地 | 高 | 一般 | 中等 | 跨平台/二次开发 |
| Ghost Pepper | macOS (M1+) | ✅ 完全离线 | 极高 | ❌ 英语优先 | ~3.5 GB | 英语+极致隐私 |
| Koe | macOS | ✅ 可选 | 高 | ✅ | < 15 MB | 工程师/极简主义 |
---
如何选择?
你不在乎隐私,想要零门槛 → 豆包输入法(中文)或 Typeless(英文)
你在乎隐私,主要讲中文 → Handless(SenseVoice 中文识别最好,支持 LLM 后处理和多快捷键模板)
你在乎隐私,主要讲英文,用 Apple Silicon → Ghost Pepper(装完即用,完全离线,按住 Control 就能说)
你是工程师,想要极简且可脚本化 → Koe(15 MB、纯文本配置、可被 Claude Code 等工具操控)
你用 Windows 或 Linux → Handy(唯一支持全平台的开源方案)
---
技术选型小结
这波开源语音输入工具都有一个共同的技术路径:
区别只在于:
- STT 引擎:Whisper(通用)vs SenseVoice(中文强)vs WhisperKit(Apple Neural Engine 加速)
- LLM 后处理:本地(Qwen/LLaMA)vs 云端(GPT-4o/Claude)
- 界面哲学:有 UI 可配置(Handless/Handy)vs 纯文本配置(Koe)vs 零配置(Ghost Pepper)
随着本地模型越来越小、越来越快,「语音 → AI」这条路会越走越顺。现在入坑开源工具,既保住了隐私,又能随时自定义提示词——用语音驱动 AI,才是 2026 年工程师的正确打开方式。
