Fish-Speech | 不训练模型，只需10s音频，实现完美克隆 | 模型微调

海豚 · 发表于 2024-10-8 00:17:07

特性
零样本 & 小样本 TTS：输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。详见语音克隆最佳实践指南。
多语言 & 跨语言支持：只需复制并粘贴多语言文本到输入框中，无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖：模型具备强大的泛化能力，不依赖音素进行 TTS，能够处理任何文字表示的语言。
高准确率：在 5 分钟的英文文本上，达到了约 2% 的 CER（字符错误率）和 WER（词错误率）。
快速：通过 fish-tech 加速，在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5，在 Nvidia RTX 4090 上约为 1:15。
WebUI 推理：提供易于使用的基于 Gradio 的网页用户界面，兼容 Chrome、Firefox、Edge 等浏览器。
GUI 推理：提供 PyQt6 图形界面，与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。
易于部署：轻松设置推理服务器，原生支持 Linux、Windows 和 macOS，最大程度减少速度损失。

项目地址：
https://github.com/fishaudio/fish-speech

视频：
1.4 介绍: https://www.bilibili.com/video/BV1pu46eVEk7
1.2 介绍: https://www.bilibili.com/video/BV1wz421B71D
1.1 介绍: https://www.bilibili.com/video/BV1zJ4m1K7cj

在线 DEMO
https://fish.audio/zh-CN/

一键运行包：
夸克：https://pan.quark.cn/s/954b6d018af5 提取码：zdjE
Mega： https://mega.nz/folder/Eql0nSRI#E39oBQwUuh7Nj2IMH1OXGg

安装部署及使用教程：
https://pan.huang1111.cn/s/4RQWoig

i74126 · 发表于 2024-10-9 08:04:20

‘厉害，收藏

		自动登录	找回密码
密码			立即注册

[AI相关] Fish-Speech | 不训练模型，只需10s音频，实现完美克隆 | 模型微调

浏览过的版块