Voicebox 是一款完全开源的本地化 AI 语音工作室,被誉为 ElevenLabs 和 WisprFlow 的开源替代品。它不仅能克隆任何人的声音,还能生成多语言语音、实时听写,甚至让 AI Agent 用你克隆的声音说话——而且这一切都在你的本地电脑上运行,数据完全隐私。
🌟 Voicebox 能做什么?
- 语音克隆 — 只需几秒音频样本,零样本人声克隆
- 多语言语音生成 — 支持 23 种语言,7 种 TTS 引擎
- 全局听写 — 在任何应用中使用快捷键听写输入
- Agent 语音输出 — 让 Claude Code、Cursor、Cline 等 AI Agent 用你克隆的声音说话
- 语音个性 — 为每个声音配置专属人设
- 后期处理 — 音调转换、混响、延迟、压缩等效果
📥 安装方式
方式一:桌面客户端(推荐)
Voicebox 提供各平台的桌面安装包:
- macOS(Apple Silicon): 下载 DMG 安装包直接安装
- macOS(Intel): 下载 DMG 安装包直接安装
- Windows: 下载 MSI 安装包直接安装
方式二:Docker 部署
如果你倾向于 Docker 部署,只需一条命令:
docker compose up
方式三:源码编译
要求 Node.js 18+ 和 Rust,克隆仓库后:
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
npm install
npm run dev
🎯 核心功能详解
语音克隆
Voicebox 支持零样本人声克隆,只需提供几秒钟的参考音频,就能生成与原始声音高度相似的语音。内置 50+ 预设声音,同时支持 Kokoro 和 Qwen CustomVoice 模型。
多引擎 TTS
内置 7 种 TTS 引擎:Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA 和 Kokoro。每种引擎各有特色,比如 Chatterbox Turbo 支持 [laugh]、[sigh] 等拟声标签,让语音更生动自然。
Agent 语音输出
Voicebox 内置 MCP 服务器,AI Agent 只需调用 voicebox.speak,就能通过你克隆的声音说话。兼容 Claude Code、Cursor、Cline 等主流 AI 编码助手。
💡 使用场景
- 内容创作: 为视频、播客生成高质量配音
- 语言学习: 用目标语言的真实声音练习听力
- AI 助手个性化: 让你的 AI 助手拥有专属声音
- 无障碍辅助: 为视障用户提供语音交互
🔗 相关链接
- GitHub 仓库:https://github.com/jamiepine/voicebox
- 官方网站:https://voicebox.sh
Voicebox 是一个正在快速发展的开源项目,目前在 GitHub 上已获得 34K+ Star。如果你对 AI 语音感兴趣,这绝对是一个值得关注和使用的工具。
© 版权声明
文章版权归作者所有,未经允许请勿转载。