海豚 发表于 2026-6-3 09:12:20

Voicebox 3秒语音克隆工具本地运行


Voicebox是一个本地优先的AI语音工作室——一个免费且开源的替代ElevenLabs和WisprFlow的应用程序。从几秒钟的音频中克隆声音,在7个TTS引擎中生成23种语言的语音,在任何文本字段中使用全局热键口述,并为任何MCP感知的AI代理提供您选择的声音。
这两家云公司分别位于语音输入/输出循环的两个对立半——ElevenLabs负责输出,WisprFlow负责输入。Voicebox则两者都做,将它们通过捆绑的本地LLM进行整合,并在你的机器上运行整个系统。
完全隐私 — 模型、语音数据和捕获数据永不离开您的机器7 个 TTS 引擎 — Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox 多语言、Chatterbox Turbo、HumeAI TADA 和 Kokoro语音克隆和预设语音 — 从参考样本进行零样本克隆,或通过Kokoro和Qwen CustomVoice提供50多个精心策划的预设语音23种语言 — 从英语到阿拉伯语、日语、印地语、斯瓦希里语等后期处理效果 — 调音、混响、延迟、合唱、压缩和滤波器富有表现力的演讲 — 像 , , 这样的副语言标签,通过 Chatterbox Turbo;自然语言交付控制通过 Qwen CustomVoice无限长度 — 自动分块并带有交叉淡入淡出的脚本、文章和章节故事编辑 — 用于对话、播客和叙述的多轨道时间线语音输入 — 全局语音记录快捷键,具有按讲模式和切换模式,macOS 上的无障碍验证自动粘贴,每个文本字段中的应用内麦克风,基于 Whisper 的自动语音转文本智能体语音输出 — 一个工具调用 (voicebox.speak) 和任何了解MCP的智能体(Claude Code, Cursor, Cline)用你克隆的声音与你对话声音个性 — 为任何声音档案附加一个自由形式的个性,然后通过本地 LLM 进行创作、重写或回应 — 代理可以在 MCP 上调用相同的模式API优先 — REST API 加入内置的 MCP 服务器,用于将语音 I/O 集成到您的 own 应用和代理中原生性能 — 由 Tauri (Rust) 构建,而非 Electron到处都能运行 — macOS (MLX/Metal), Windows (CUDA), Linux, AMD ROCm, Intel Arc, Docker





开源项目地址下载:
https://github.com/jamiepine/voicebox/releases

官网下载:
https://voicebox.sh/download
页: [1]
查看完整版本: Voicebox 3秒语音克隆工具本地运行