找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3121|回复: 1

[AI相关] Fish-Speech | 不训练模型,只需10s音频,实现完美克隆 | 模型微调

[复制链接]
发表于 2024-10-8 00:17:07 | 显示全部楼层 |阅读模式






特性
零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。详见 语音克隆最佳实践指南。
多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。
高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。
快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。
GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。
易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。

项目地址:
https://github.com/fishaudio/fish-speech



视频:
1.4 介绍: https://www.bilibili.com/video/BV1pu46eVEk7
1.2 介绍: https://www.bilibili.com/video/BV1wz421B71D
1.1 介绍: https://www.bilibili.com/video/BV1zJ4m1K7cj



在线 DEMO

https://fish.audio/zh-CN/




一键运行包:
夸克:https://pan.quark.cn/s/954b6d018af5  提取码:zdjE
Mega:   https://mega.nz/folder/Eql0nSRI#E39oBQwUuh7Nj2IMH1OXGg

安装部署及使用教程:
https://pan.huang1111.cn/s/4RQWoig

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

发表于 2024-10-9 08:04:20 | 显示全部楼层
‘厉害,收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|腾飞在线 ( 冀ICP备05002530号 )

GMT+8, 2026-2-14 06:07 , Processed in 0.061695 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表