Voicebox 开源AI语音工作室部署教程，本地运行你的AI语音克隆

1.2K 0

Voicebox 是一款完全开源的本地化 AI 语音工作室，被誉为 ElevenLabs 和 WisprFlow 的开源替代品。它不仅能克隆任何人的声音，还能生成多语言语音、实时听写，甚至让 AI Agent 用你克隆的声音说话——而且这一切都在你的本地电脑上运行，数据完全隐私。

🌟 Voicebox 能做什么？

语音克隆 — 只需几秒音频样本，零样本人声克隆
多语言语音生成 — 支持 23 种语言，7 种 TTS 引擎
全局听写 — 在任何应用中使用快捷键听写输入
Agent 语音输出 — 让 Claude Code、Cursor、Cline 等 AI Agent 用你克隆的声音说话
语音个性 — 为每个声音配置专属人设
后期处理 — 音调转换、混响、延迟、压缩等效果

📥 安装方式

方式一：桌面客户端（推荐）

Voicebox 提供各平台的桌面安装包：

macOS（Apple Silicon）： 下载 DMG 安装包直接安装
macOS（Intel）： 下载 DMG 安装包直接安装
Windows： 下载 MSI 安装包直接安装

方式二：Docker 部署

如果你倾向于 Docker 部署，只需一条命令：

docker compose up

方式三：源码编译

要求 Node.js 18+ 和 Rust，克隆仓库后：

git clone https://github.com/jamiepine/voicebox.git
cd voicebox
npm install
npm run dev

🎯 核心功能详解

语音克隆

Voicebox 支持零样本人声克隆，只需提供几秒钟的参考音频，就能生成与原始声音高度相似的语音。内置 50+ 预设声音，同时支持 Kokoro 和 Qwen CustomVoice 模型。

多引擎 TTS

内置 7 种 TTS 引擎：Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAI TADA 和 Kokoro。每种引擎各有特色，比如 Chatterbox Turbo 支持 [laugh]、[sigh] 等拟声标签，让语音更生动自然。