11353阅读
1回复

[图形图像]DDSP-SVC 3.0 一站式整合包及使用教程 [复制链接]

上一主题下一主题查看指定楼层

离线海豚

荣誉会员

发帖: 16660

金钱: 488595

威望: 0

贡献值: 1

只看楼主倒序阅读使用道具 0 发表于: 2023-06-08

DDSP-SVC 3.0 一站式整合包使用教程

🤔DDSP-SVC 3.0 (D3SP) 是什么？

DDSP-SVC 是一个相对年轻的音声转换项目，相较于常用的So-VITS和更早的Diff-SVC，DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目，一般来说只要有一张2G以上显存的N卡，花上一两个小时就可以训练完成，大大降低了AI变声的门槛。当然，带来的牺牲就是其原本的转换效果是不太尽人意的。但是最近DDSP项目迭代到了3.0版本，在原有的基础上加入了浅扩散机制，将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理，输出梅尔谱图并通过声码器转换为高质量音频，使得转换效果大幅提升，在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP（DDSP with Diffusion, DDDSP, 带带大涩批）。

📚更新日志

2023.05.12 v1.0.0 (NEWEST)● 初版发布

⚖️许可证声明和作品简介模板

DDSP-SVC仓库与本整合包使用MIT许可，使用本整合包或直接使用原项目仓库产出的作品，需遵循以下协议条款：1. 在使用本整合包时，必须根据知情同意原则取得数据集音声来源的授权许可，并根据授权协议条款规定使用数据集。2. 禁止使用该整合包对公众人物、政治人物或其他容易引起争议的人物进行模型训练。使用本整合包产出和传输的信息需符合中国法律、国际公约的规定、符合公序良俗。不将本整合包以及与之相关的服务用作非法用途以及非正当用途。3. 禁止将本整合包用于血腥、暴力、性相关、或侵犯他人合法权利的用途。4. 任何发布到视频平台的基于DDSP-SVC制作的视频，都必须要在简介明确指明用于变声器转换的输入源歌声、音频，例如：使用他人发布的视频/音频，通过分离的人声作为输入源进行转换的，必须要给出明确的原视频、音乐链接；若使用是自己的人声，或是使用其他歌声合成引擎合成的声音作为输入源进行转换的，也必须在简介加以说明。

作品简介模板

Cover/原唱: [使用的输入源音声来源]音声来源：[训练集音声来源]项目地址：https://github.com/yxlllc/DDSP-SVC免责声明：本作品仅作为娱乐目的发布，可能造成的后果与使用的音声转换项目的作者、贡献者无关。

🤗下载地址

🎉完整整合包(v1.0.0)

百度网盘：https://pan.baidu.com/s/1DWqVpJ7b6ueoUv6h4yF1-A?pwd=ddsp 提取码：ddsp Google Drive: https://drive.google.com/file/d/1Xxw8kkjRJSLROlvReRLl51HQeJfqCUFn/view?usp=share_link

🚀增量更新

增量更新被吃掉了！

🥰使用教程

1. 启动WebUI

整合包内的训练和推理都可以在WebUI可视化完成，你要做的只是打开启动WebUI.bat即可。

2. 准备数据集

对于D3SP，数据集的要求和其他SVC项目大差不差，约1-2小时的干声素材，切片为3-15秒的音频文件。你可以使用整合包WebUI中的智能音频切片来快速完成数据集的制作。需要注意的是，你需要按照100:1的比例手动划分训练集(train)和验证集(val)，也可以一键让程序帮你抽卡。具体的方法在WebUI中的训练选项卡中详细说明了。单说话人数据集结构：多说话人数据集结构：data data├─ train ├─ train│ ├─ audio │ ├─ audio │ │ ├─ aaa.wav │ │ ├─ 1│ │ ├─ bbb.wav │ │ │ ├─ aaa.wav│ │ └─ ....wav │ │ │ └─ bbb.wav├─ val │ │ ├─ 2 │ ├─ audio │ │ │ ├─ ccc.wav │ │ ├─ eee.wav │ │ │ └─ ddd.wav│ │ ├─ fff.wav ├─ val │ │ └─ ....wav │ ├─ audio │ │ ├─ 1 │ │ │ └─ eee.wav │ │ ├─ 2 │ │ │ └─ fff.wav

3. 训练

训练的流程以及超参数设置说明在WebUI中已经写得很清楚了，照着做就是了。需要注意的是Tensorboard内的生成音频是未经过声码器增强输出后的DDSP原始音频，不代表实际效果。

4. 推理

D3SP的完整推理流程需要用到刚才训练的两个模型，但得益于D3SP优秀的向前兼容性，你甚至可以单独使用任意模型进行推理（纯DDSP推理和纯扩散推理）：

推荐的做法是同时加载两个模型进行D3SP推理，但即使你只有其中任意一种模型，程序也会自动进入相应的兼容推理模式（两个模型都没有？你可以坐太阳底下晒晒看看能不能光合作用输出音频来）。当你选择模型时，程序会自动选择对应的配置文件。与So-VITS不同，DDSP的配置文件和模型均应对应放在exp/diffusion-test（扩散模型）和exp/combsub-test（DDSP模型）文件夹下，程序才可以自动识别。

5. 实时变声

整合包内自带一个实时变声GUI，在终端里输入workenv\python.exe gui_diff.py 就可以打开，本教程不做实时变声支持，请自行探索。

视频教程：
https://www.bilibili.com/video/BV1rs4y1Q7BQ/?spm_id_from=333.788&vd_source=625901b673a580184480a48f03f3af80