|
DDSP-SVC 3.0 一站式整合包使用教程 🤔DDSP-SVC 3.0 (D3SP) 是什么? DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。 📚更新日志 2023.05.12 v1.0.0 (NEWEST)● 初版发布 ⚖️许可证声明和作品简介模板 DDSP-SVC仓库与本整合包使用MIT许可,使用本整合包或直接使用原项目仓库产出的作品,需遵循以下协议条款:1. 在使用本整合包时,必须根据知情同意原则取得数据集音声来源的授权许可,并根据授权协议条款规定使用数据集。2. 禁止使用该整合包对公众人物、政治人物或其他容易引起争议的人物进行模型训练。使用本整合包产出和传输的信息需符合中国法律、国际公约的规定、符合公序良俗。不将本整合包以及与之相关的服务用作非法用途以及非正当用途。3. 禁止将本整合包用于血腥、暴力、性相关、或侵犯他人合法权利的用途。4. 任何发布到视频平台的基于DDSP-SVC制作的视频,都必须要在简介明确指明用于变声器转换的输入源歌声、音频,例如:使用他人发布的视频/音频,通过分离的人声作为输入源进行转换的,必须要给出明确的原视频、音乐链接;若使用是自己的人声,或是使用其他歌声合成引擎合成的声音作为输入源进行转换的,也必须在简介加以说明。 作品简介模板 Cover/原唱: [使用的输入源音声来源]音声来源:[训练集音声来源]项目地址:https://github.com/yxlllc/DDSP-SVC免责声明:本作品仅作为娱乐目的发布,可能造成的后果与使用的音声转换项目的作者、贡献者无关。 🤗下载地址 🎉完整整合包(v1.0.0) 百度网盘:https://pan.baidu.com/s/1DWqVpJ7b6ueoUv6h4yF1-A?pwd=ddsp 提取码:ddsp Google Drive: https://drive.google.com/file/d/1Xxw8kkjRJSLROlvReRLl51HQeJfqCUFn/view?usp=share_link 🚀增量更新 增量更新被吃掉了! 🥰使用教程 1. 启动WebUI 整合包内的训练和推理都可以在WebUI可视化完成,你要做的只是打开启动WebUI.bat即可。 2. 准备数据集 对于D3SP,数据集的要求和其他SVC项目大差不差,约1-2小时的干声素材,切片为3-15秒的音频文件。你可以使用整合包WebUI中的智能音频切片来快速完成数据集的制作。需要注意的是,你需要按照100:1的比例手动划分训练集(train)和验证集(val),也可以一键让程序帮你抽卡。具体的方法在WebUI中的训练选项卡中详细说明了。单说话人数据集结构: 多说话人数据集结构:data data├─ train ├─ train│ ├─ audio │ ├─ audio │ │ ├─ aaa.wav │ │ ├─ 1│ │ ├─ bbb.wav │ │ │ ├─ aaa.wav│ │ └─ ....wav │ │ │ └─ bbb.wav├─ val │ │ ├─ 2 │ ├─ audio │ │ │ ├─ ccc.wav │ │ ├─ eee.wav │ │ │ └─ ddd.wav│ │ ├─ fff.wav ├─ val │ │ └─ ....wav │ ├─ audio │ │ ├─ 1 │ │ │ └─ eee.wav │ │ ├─ 2 │ │ │ └─ fff.wav 3. 训练 训练的流程以及超参数设置说明在WebUI中已经写得很清楚了,照着做就是了。需要注意的是Tensorboard内的生成音频是未经过声码器增强输出后的DDSP原始音频,不代表实际效果。 4. 推理 D3SP的完整推理流程需要用到刚才训练的两个模型,但得益于D3SP优秀的向前兼容性,你甚至可以单独使用任意模型进行推理(纯DDSP推理和纯扩散推理): 推荐的做法是同时加载两个模型进行D3SP推理,但即使你只有其中任意一种模型,程序也会自动进入相应的兼容推理模式(两个模型都没有?你可以坐太阳底下晒晒看看能不能光合作用输出音频来)。当你选择模型时,程序会自动选择对应的配置文件。与So-VITS不同,DDSP的配置文件和模型均应对应放在exp/diffusion-test(扩散模型)和exp/combsub-test(DDSP模型)文件夹下,程序才可以自动识别。 5. 实时变声 整合包内自带一个实时变声GUI,在终端里输入workenv\python.exe gui_diff.py 就可以打开,本教程不做实时变声支持,请自行探索。 视频教程:https://www.bilibili.com/video/BV1rs4y1Q7BQ/?spm_id_from=333.788&vd_source=625901b673a580184480a48f03f3af80
|