github上有安装利用步骤,大佬可以参考步骤安装利用,我们这里利用羽毛布団大佬制作的整合包,方便新手小白利用。
百度网盘下载链接: https://pan.baidu.com/s/1KBGJP4F1i5OthGCoAohz9Q?pwd=35ps 提取码: 35ps

首先准备声音素材,最好是在安静的环境中录制的纯人声高清音频素材,如果你是用来转换歌曲的话,你录制的声音最好有高音和低音部分,这样转换出来的歌声效果更好,不然的话高音部分可能会沙哑变音,如果你录制的声音不足干净,可以利用UVR5这个软件来提取干净人声。
这个软件在网盘里也有。
声音素材总时长建议在1个小时以上。

打开UVR5软件,如上图所示,input里选择待提取纯人声的音频文件,output选择输出文件夹,下面选中GPU Conversion 和vocals only只保留人声,然后点击按钮start processing提取即可。
单个音频文件不要太大,时长最好20分钟以内,否则软件可能会因显存不敷报错。
将所有纯人声音频文件提取完毕后待用。

将DDSP-SVC软件下载到电脑上解压,运行【启动WebUI.bat】文件启动webui页面,选择智能音频切片选项卡,原始音频文件夹里输入准备好的干净人声音频文件所在的文件夹,文件夹路径复制进来,然后点击按钮【加载原始音频】,看看是不是提示加载成功,音频列表里的音频文件和你文件夹里的音频文件是否同等,然后选择分割后的音频输入文件夹,点击【开始切片】开始分割音频。
输出信息成功即代表分割完成。

AI翻唱变声软件DDSPSVC教程低配电脑可用sovitssvc替代品

音频分割完成之后,将分割好的音频片段复制到data\train\audio文件夹下,再点击【一键划分数据集】按钮,选出验证集音频文件

下面是数据预处理,选择编码器和f0提取算法,页面上有明确的解释,可以根据自己的需求选择,然后点击【数据预处理】按钮,这一步根据选择算法不同,文件数量不同花费韶光也不一定。
等到进度条100%,没有报错的话便是预处理成功了。

下面是设置演习参数,统共须要演习两个模型一个是DDSP模型另一个是扩散模型,下面大部分参数保持默认即可,如果你的显卡显存比较低比如2G,可以在缓存数据这里选择CPU,同时batch_size也要适当降落,大显存可以不用修正。
扩散模型配置里演习数据类型,如果你的显卡是20系列或更高,可以选择fp16或bf16,可以加快演习速率,如果演习时提示RuntimeError: Current CUDA Device does not support bfloat16. Please switch dtype to float16,便是不支持bf16,可以选择前面的fp16,如果还是不支持就再朝前选择fp32,把稳改换选择演习数据类型之后要点击按钮【写入配置文件】,然后再去点击下面的演习模型按钮,都设置完成后点击按钮写入配置文件。

下面选择从头开始演习,然后点击演习DDSP模型,然后系统就会打开终端窗口输出演习信息,如果不想演习了的话可以按住ctrl+c终止演习,DDSP模型和扩散模型是分开独立演习的,

你可以打开tendorboard查看演习状态,选中正在演习的模型点击打开tensorboard按钮,等到终端输入如下图http://localhost:6006/信息的时候将网址复制到浏览器地址栏打开就可以。

演习步数越大越好,在演习过程中终端会输出loss值,当值很低不再变的时候就可以停滞演习了,可以转去演习下一个模型。
如果停滞后想接着演习,可以选择连续上一次的演习进度接着演习。

两个模型都演习完成之后,切换到推理选项卡,点击刷新选项,选择模型演习步数最大的模型文件。

点击上传待转换的纯人声音频文件,其它设置保持默认即可,点击下面的音频转换按钮开始转换音频。
如果转换后的音频声音沙哑或是声音非常,可能是模型里没有高音待转换的音频里面有高音无法达到转换效果,或是f0提取算法问题,你可以换个算法。
声音转换完成后可以播放试听或是点击下载保存转换后的音频文件。

在终端里面输入workenv\python.exe gui_diff.py运行,可以开启实时声音转换功能,选择想用的模型,选择输入输出设备,点击开始音频转换按钮即可。

把稳请演习自己的声音,如果演习别人的声音请得到授权,仅限个人研究学习及娱乐利用,切勿违规利用该软件。

原文:https://dyss.top/897