Voicebox 3秒语音克隆工具本地运行

海豚 · 发表于 2026-6-3 09:12:20

Voicebox是一个本地优先的AI语音工作室——一个免费且开源的替代ElevenLabs和WisprFlow的应用程序。从几秒钟的音频中克隆声音，在7个TTS引擎中生成23种语言的语音，在任何文本字段中使用全局热键口述，并为任何MCP感知的AI代理提供您选择的声音。

这两家云公司分别位于语音输入/输出循环的两个对立半——ElevenLabs负责输出，WisprFlow负责输入。Voicebox则两者都做，将它们通过捆绑的本地LLM进行整合，并在你的机器上运行整个系统。

完全隐私 — 模型、语音数据和捕获数据永不离开您的机器

7 个 TTS 引擎 — Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox 多语言、Chatterbox Turbo、HumeAI TADA 和 Kokoro

语音克隆和预设语音 — 从参考样本进行零样本克隆，或通过Kokoro和Qwen CustomVoice提供50多个精心策划的预设语音

23种语言 — 从英语到阿拉伯语、日语、印地语、斯瓦希里语等

后期处理效果 — 调音、混响、延迟、合唱、压缩和滤波器

富有表现力的演讲 — 像 [laugh], [sigh], [gasp] 这样的副语言标签，通过 Chatterbox Turbo；自然语言交付控制通过 Qwen CustomVoice

无限长度 — 自动分块并带有交叉淡入淡出的脚本、文章和章节

故事编辑 — 用于对话、播客和叙述的多轨道时间线

语音输入 — 全局语音记录快捷键，具有按讲模式和切换模式，macOS 上的无障碍验证自动粘贴，每个文本字段中的应用内麦克风，基于 Whisper 的自动语音转文本

智能体语音输出 — 一个工具调用 (voicebox.speak) 和任何了解MCP的智能体（Claude Code, Cursor, Cline）用你克隆的声音与你对话

声音个性 — 为任何声音档案附加一个自由形式的个性，然后通过本地 LLM 进行创作、重写或回应 — 代理可以在 MCP 上调用相同的模式

API优先 — REST API 加入内置的 MCP 服务器，用于将语音 I/O 集成到您的 own 应用和代理中

原生性能 — 由 Tauri (Rust) 构建，而非 Electron

到处都能运行 — macOS (MLX/Metal), Windows (CUDA), Linux, AMD ROCm, Intel Arc, Docker

		自动登录	找回密码
密码			立即注册

[AI相关] Voicebox 3秒语音克隆工具本地运行