论坛风格切换切换到宽版
  • 7654阅读
  • 1回复

[图形图像]DDSP-SVC 3.0 一站式整合包及使用教程 [复制链接]

上一主题 下一主题
在线海豚
 

发帖
14033
金钱
437714
威望
0
贡献值
1
只看楼主 倒序阅读 使用道具 0 发表于: 2023-06-08


DDSP-SVC 3.0 一站式整合包使用教程


🤔DDSP-SVC 3.0 (D3SP) 是什么?

DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。

📚更新日志

2023.05.12 v1.0.0 (NEWEST) 初版发布

⚖️许可证声明和作品简介模板

DDSP-SVC仓库与本整合包使用MIT许可,使用本整合包或直接使用原项目仓库产出的作品,需遵循以下协议条款:1. 在使用本整合包时,必须根据知情同意原则取得数据集音声来源的授权许可,并根据授权协议条款规定使用数据集。2. 禁止使用该整合包对公众人物、政治人物或其他容易引起争议的人物进行模型训练。使用本整合包产出和传输的信息需符合中国法律、国际公约的规定、符合公序良俗。不将本整合包以及与之相关的服务用作非法用途以及非正当用途。3. 禁止将本整合包用于血腥、暴力、性相关、或侵犯他人合法权利的用途。4. 任何发布到视频平台的基于DDSP-SVC制作的视频,都必须要在简介明确指明用于变声器转换的输入源歌声、音频,例如:使用他人发布的视频/音频,通过分离的人声作为输入源进行转换的,必须要给出明确的原视频、音乐链接;若使用是自己的人声,或是使用其他歌声合成引擎合成的声音作为输入源进行转换的,也必须在简介加以说明。

作品简介模板

Cover/原唱: [使用的输入源音声来源]音声来源:[训练集音声来源]项目地址:https://github.com/yxlllc/DDSP-SVC免责声明:本作品仅作为娱乐目的发布,可能造成的后果与使用的音声转换项目的作者、贡献者无关。

🤗下载地址



🎉完整整合包(v1.0.0)

百度网盘:https://pan.baidu.com/s/1DWqVpJ7b6ueoUv6h4yF1-A?pwd=ddsp 提取码:ddsp Google Drive: https://drive.google.com/file/d/1Xxw8kkjRJSLROlvReRLl51HQeJfqCUFn/view?usp=share_link

🚀增量更新

增量更新被吃掉了!

🥰使用教程



1. 启动WebUI

整合包内的训练和推理都可以在WebUI可视化完成,你要做的只是打开启动WebUI.bat即可。

2. 准备数据集

对于D3SP,数据集的要求和其他SVC项目大差不差,约1-2小时的干声素材,切片为3-15秒的音频文件。你可以使用整合包WebUI中的智能音频切片来快速完成数据集的制作。需要注意的是,你需要按照100:1的比例手动划分训练集(train)和验证集(val),也可以一键让程序帮你抽卡。具体的方法在WebUI中的训练选项卡中详细说明了。单说话人数据集结构:                                       多说话人数据集结构:data                                     data├─ train                                 ├─ train│    ├─ audio                            │    ├─ audio  │    │    ├─ aaa.wav                     │    │    ├─ 1│    │    ├─ bbb.wav                     │    │    │   ├─ aaa.wav│    │    └─ ....wav                     │    │    │   └─ bbb.wav├─ val                                   │    │    ├─ 2   │    ├─ audio                            │    │    │   ├─ ccc.wav                    │    │    ├─ eee.wav                     │    │    │   └─ ddd.wav│    │    ├─ fff.wav                     ├─ val  │    │    └─ ....wav                     │    ├─ audio                                                                            │    │    ├─ 1                                                                         │    │    │   └─ eee.wav                                                                           │    │    ├─ 2                                                                         │    │    │   └─ fff.wav

3. 训练

训练的流程以及超参数设置说明在WebUI中已经写得很清楚了,照着做就是了。需要注意的是Tensorboard内的生成音频是未经过声码器增强输出后的DDSP原始音频,不代表实际效果。

4. 推理

D3SP的完整推理流程需要用到刚才训练的两个模型,但得益于D3SP优秀的向前兼容性,你甚至可以单独使用任意模型进行推理(纯DDSP推理和纯扩散推理):推荐的做法是同时加载两个模型进行D3SP推理,但即使你只有其中任意一种模型,程序也会自动进入相应的兼容推理模式(两个模型都没有?你可以坐太阳底下晒晒看看能不能光合作用输出音频来)。当你选择模型时,程序会自动选择对应的配置文件。与So-VITS不同,DDSP的配置文件和模型均应对应放在exp/diffusion-test(扩散模型)和exp/combsub-test(DDSP模型)文件夹下,程序才可以自动识别。

5. 实时变声

整合包内自带一个实时变声GUI,在终端里输入workenv\python.exe gui_diff.py 就可以打开,本教程不做实时变声支持,请自行探索。


视频教程:
https://www.bilibili.com/video/BV1rs4y1Q7BQ/?spm_id_from=333.788&vd_source=625901b673a580184480a48f03f3af80

评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

无聊

灌水
我爱潜水!
在线海豚

发帖
14033
金钱
437714
威望
0
贡献值
1
只看该作者 1 发表于: 2023-06-08
我爱潜水!
快速回复
限100 字节
 
上一个 下一个