懒羊羊的AI声音克隆教你打造自己的音乐宠物

模型下载办法 mxgf.cc 搜索

以下是章节演习总目录，随着来，相信你也可以的

序言

最近，AI

首先，为了演习AI

接下来，我们须要利用深度学习框架，RVC模型技能是基于深度学习的语音处理技能，其核心事理是将输入的源声音与目标声音进行对齐和映射，从而实现将源声音转化为目标声音的效果。
详细而言，RVC技能分为两个阶段：演习阶段和推理阶段。
在演习阶段，RVC技能须要网络大量的源声音和目标声音数据作为演习样本，这些样本须要包含源声音和目标声音的对应关系。
然后，将源声音和目标声音进行特色提取，常日利用的是基于Mel频谱的声音特色。
接下来，利用深度神经网络模型，如WaveNet或Tacotron2，进行演习，演习的目标是使得模型能够准确地将源声音映射到目标声音。
在推理阶段，RVC技能利用演习好的模型对新的源声音进行转换，将其转化为目标声音。
整体事理是通过将源声音与目标声音进行对齐和映射，从而实现变声。
调度模型的参数，以便更好地仿照

术语听不听不懂没紧要，我就拆解成四个部分

1,声音提取 2, 模型演习 3, 歌曲推理 4，歌曲合成

一、声音提取

声音提取是全体环节最主要的，提取声音的方法有很多，包括手动提取和自动提取。
手动提取须要利用音频编辑软件，通过手动选择须要提取的音频片段，然后导出为独立的音频文件。
这种方法比较大略，但是比较费时费力，适宜处理少量音频。
自动提取可以利用基于旗子暗记处理的方法，例如短时傅里叶变换、小波变换等，将音频旗子暗记分解为不同的频段，然后提取特色或进行分类。

懒羊羊的AI声音克隆教你打造自己的音乐宠物

提取办法

此外我这里还有个奇技淫巧方法，

1，在视频平台搜索

2，找

将提取之后的视频进行转换，转换成音频格式，如果是mp4则可以改后缀mp3。
其他格式也须要转成声音格式。

转成声音格式之后推举再用UVR5进一步声音提纯处理，整理成音频素材集之后，就可以进行下一步操作了。

常用工具下载

B站视频下载工具 https://pan.baidu.com/s/1ioP2DTDM8ZcFH_n_21qozw?pwd=mxgf

视频转码工具 https://pan.baidu.com/s/1L0a14Ps29V1y-FHBVCIdbw?pwd=mxgf

UVR5.5 https://pan.baidu.com/s/1Y5mY92o5WlYJL8kHf96Oiw?pwd=920o

UVR 利用办法 UVR5.5音频分离工具利用教程 - 模型工坊-模型工坊 (mxgf.cc)

在线下载

抖音无水印工具_最新抖音在线无水印解析_抖音图文无水印下载_TikTok Downloader no watermark_ouo工具 (ouotool.com)

模型演习模型演习

RVC先容Retrieval-based-Voice-Conversion-WebUI 简称 RVC一个基于VITS的大略易用的语音转换（变声器）框架

RVC0813 整合包下载（整合包包含运行环境启动器）

https://pan.baidu.com/share/init?surl=mEs9Jmi2tBot4AgH6ZWp-w&pwd=eqea

选择得当自己的显卡下载

下载RVC0813AMD_Intel包可解锁A卡I卡（1）双击go-realtime-gui-dml.bat利用实时变声，A卡大概能压到300ms旁边，以下有压力（2）双击go-web-dml.bat利用演习推理（CPU演习）N卡用户下载RVC0813Nvidia（1）双击go-realtime-gui.bat利用实时变声，N卡大概能压到100ms旁边，以下有压力（2）双击go-web.bat利用演习推理

启动go-web

启动成功

进入演习界面，默认的参数默认就行，不用动

输入音频文件夹路径，处理数据

3，输入音频文件夹路径，处理数据

将要演习的的干声数据集放到本地任意英文路径文件夹内复，点击处理数据

处理数据

处理完毕

涌现 end preprocess 表示处理完毕

特色提取

（特色提取是从声音旗子暗记中提取有用信息的过程，这些信息可以被用于演习模型进行分类或识别）

提取完毕

涌现 all-feature-done 表示已经处理完毕，可以进行末了一步处理了

开始演习，设置演习的步数和保存频率

参数设置

保存頻率这个数值表示多少轮保存一次模型，如果你的电脑很牛很稳定 50轮也是可以的，不然就推举 20-40轮保存一次模型

總訓練輪數一样平常 300轮，模型就可以出炉了

每张显卡的batch_size 如果你的显存是8则填8，显存多少，填多少数值。

点击一键演习

终端显示Epoch: 1字符，表示第一轮，正在演习了

等待几个小时后，就演习结束了，就可以进行下一步，对声音模型进行推理试音了。

三、歌曲分离/推理1，歌曲分离

1，准备好歌曲文件，格式包括AAC,FLAC等主流声音格式，但不包括加密格式，比如网易云加密歌曲，酷狗,qq音乐。

2，将歌曲文件放到UVR 5，进行分离，分离的目的是把伴奏和人声抽离出来

处理完成之后会得到两个音频文件

1_陈雪凝 - 绿色_(Instrumental) 伴奏

1_陈雪凝 - 绿色_(Vocals) 人声

等下推理时候会用到这个 _(Vocals) 人声部分

注：

模型要记得选择 MDX-NET UVR-MDX-NET Main

处理模型下载

https://pan.baidu.com/s/1QgjSllWUCoTNEYkzgMMMjA?pwd=yvkv

将下载好的模型，放到UVR根目录下面的models文件夹下

如果分离过程中涌现报错，可能缘故原由是显存或内存不敷，考试测验重启电脑2，歌曲推理打开整合包

RVC0813 整合包下载（整合包包含运行环境启动器）

https://pan.baidu.com/share/init?surl=mEs9Jmi2tBot4AgH6ZWp-w&pwd=eqea

下载之后，解压

版本解释

下载RVC0813AMD_Intel包可解锁A卡I卡

（1）双击go-realtime-gui-dml.bat利用实时变声，A卡大概能压到300ms旁边，以下有压力

（2）双击go-web-dml.bat利用演习推理（CPU演习）

N卡用户下载RVC0813Nvidia

（1）双击go-realtime-gui.bat利用实时变声，N卡大概能压到100ms旁边，以下有压力

双击go-web.bat利用演习推理

选择得当自己的显卡下载

等待启动，涌现地址，表示启动成功

启动成功会自动跳转WEBUI

将模型放置到目录（演习好的，忽略这一步）

刷新音色，然后按顺序进行推理

解疑音频地址

WIN11 鼠标右击可以快速复制地址，复制的地址前后如果带有双引号记得删除”“

WIN10 须要将声音文件放到任意文件夹内，按shift+鼠标右键选择复制路径

四、歌曲合成

所需工具 AU 链接：https://pan.baidu.com/s/107cWfLF6ftdxxfVLipfnfw?pwd=mxgf

解压密码 @vposy

1，转换后的歌曲人声下载到桌面

2，利用AU将伴奏和转换后的人声合并

首先新建多轨会话，将转换的人声和伴奏拉进AU

视频加载中...

合成的音频导出

导出

教程结束，教程写的有点乱，多多包含，有什么不懂的欢迎私。

每期AI知识网

懒羊羊的AI声音克隆教你打造自己的音乐宠物

AI绘画迁徙改变地球理解我们的美丽家园

coze保姆级教程用coze图像流寻衅一下抖音刚火的AI古风画卷

每期AI知识网

懒羊羊的AI声音克隆教你打造自己的音乐宠物

AI绘画 迁徙改变地球 理解我们的美丽家园

coze保姆级教程用coze图像流寻衅一下抖音刚火的AI古风画卷

AI绘画迁徙改变地球理解我们的美丽家园