Voicebox 开源AI语音工作室部署教程,本地运行你的AI语音克隆

精彩教程2小时前更新 小文
72 0

Voicebox 是一款完全开源的本地化 AI 语音工作室,被誉为 ElevenLabs 和 WisprFlow 的开源替代品。它不仅能克隆任何人的声音,还能生成多语言语音、实时听写,甚至让 AI Agent 用你克隆的声音说话——而且这一切都在你的本地电脑上运行,数据完全隐私。

🌟 Voicebox 能做什么?

  • 语音克隆 — 只需几秒音频样本,零样本人声克隆
  • 多语言语音生成 — 支持 23 种语言,7 种 TTS 引擎
  • 全局听写 — 在任何应用中使用快捷键听写输入
  • Agent 语音输出 — 让 Claude Code、Cursor、Cline 等 AI Agent 用你克隆的声音说话
  • 语音个性 — 为每个声音配置专属人设
  • 后期处理 — 音调转换、混响、延迟、压缩等效果

📥 安装方式

方式一:桌面客户端(推荐)

Voicebox 提供各平台的桌面安装包:

  • macOS(Apple Silicon): 下载 DMG 安装包直接安装
  • macOS(Intel): 下载 DMG 安装包直接安装
  • Windows: 下载 MSI 安装包直接安装

方式二:Docker 部署

如果你倾向于 Docker 部署,只需一条命令:

docker compose up

方式三:源码编译

要求 Node.js 18+ 和 Rust,克隆仓库后:

git clone https://github.com/jamiepine/voicebox.git
cd voicebox
npm install
npm run dev

🎯 核心功能详解

语音克隆

Voicebox 支持零样本人声克隆,只需提供几秒钟的参考音频,就能生成与原始声音高度相似的语音。内置 50+ 预设声音,同时支持 Kokoro 和 Qwen CustomVoice 模型。

多引擎 TTS

内置 7 种 TTS 引擎:Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA 和 Kokoro。每种引擎各有特色,比如 Chatterbox Turbo 支持 [laugh]、[sigh] 等拟声标签,让语音更生动自然。

Agent 语音输出

Voicebox 内置 MCP 服务器,AI Agent 只需调用 voicebox.speak,就能通过你克隆的声音说话。兼容 Claude Code、Cursor、Cline 等主流 AI 编码助手。

💡 使用场景

  1. 内容创作: 为视频、播客生成高质量配音
  2. 语言学习: 用目标语言的真实声音练习听力
  3. AI 助手个性化: 让你的 AI 助手拥有专属声音
  4. 无障碍辅助: 为视障用户提供语音交互

🔗 相关链接

Voicebox 是一个正在快速发展的开源项目,目前在 GitHub 上已获得 34K+ Star。如果你对 AI 语音感兴趣,这绝对是一个值得关注和使用的工具。

© 版权声明

相关文章