GPTSoVITSWebUI实测一键支配今朝最好的中文声音克隆对象

在人工智能的浪潮中，语音技能的改造正以前所未有的速率推进。
GPT-SoVITS-WebUI正引领着这一变革。
它可以用非常少的声音源快速地演习出一个TTS模型。

这个强大的Web界面临象不仅供应了零次学习和少量次学习的文本到语音（TTS）功能，还支持跨措辞的语音转换，为语音技能的爱好者和开拓者打开了一扇新的大门。

我用不到1分钟‘爷叔’的音源，推理后的效果：

视频加载中...

GPTSoVITSWebUI实测一键支配今朝最好的中文声音克隆对象

功能亮点：

1.零次TTS：只需输入一段5秒的语音样本，GPT-SoVITS-WebUI就能立即将其转换为文本，让你体验到即时的语音到文本的转换。

2.少次TTS：通过微调模型，只需1分钟的演习数据，就能显著提升语音的相似度和真实感，这对付个性化语音合成尤为关键。

3.跨措辞支持：GPT-SoVITS-WebUI能够处理与演习数据集不同措辞的语音，目前支持英语、日语和中文，这大大拓宽了其运用范围。

4.WebUI工具集成：工具中集成了多种实用功能，如语音伴奏分离、自动演习集分割、中文自动语音识别（ASR）和文本标注，这些工具对付初学者来说尤其友好，可以帮助他们轻松创建演习数据集和GPT/SoVITS模型。

环境准备与安装：

开源地址：

https://github.com/RVC-Boss/GPT-SoVITS

对付Windows用户，安装GPT-SoVITS-WebUI非常大略，只需下载预压缩包，解压后双击运行即可。
而对付Python和PyTorch版本，工具已经经由Python 3.9、PyTorch 2.0.1和CUDA 11的测试，确保了兼容性和稳定性。

一.安装步骤：

1. 整合包资源获取，"大众年夜众号回答GSV

2. 解压到任意目录。

3. 双击`go-webui.bat`文件启动GPT-SoVITS-WebUI。

二.对付其他操作系统，可以通过以下步骤手动安装：

创建一个新的Conda环境：

conda create -n GPTSoVits python=3.9

2.激活环境：

conda activate GPTSoVits

3.运行安装脚本：

bashinstall.sh

4.安装额外的Pip包：

pip install torch numpy scipy tensorboard librosa==0.9.2 numba==0.56.4 pytorch-lightning gradio==3.14.0 ffmpeg-python onnxruntime tqdm cn2an pypinyin pyopenjtalk g2p_en chardet

5.如果须要中文ASR，安装FunASR：

pip install modelscope torchaudio sentencepiece funasr

预演习模型与数据集格式

GPT-SoVITS-WebUI供应了预演习模型，用户可以从官方网站下载并放置在指定目录。
对付中文ASR，须要下载额外的模型。
数据集的格式遵照特定的.list文件格式，措辞字典定义了不同措辞的缩写，如'zh'代表中文，'ja'代表日语，'en'代表英语。

如何利用：

一.获取前置数据集

1.准备音源：

音源1分钟以内，视频，音频都可以。
我准备的是当下大火的剧《繁花》里面爷叔的视频，他的声音很干净。
资源可在"大众年夜众号回答繁花

但我还是按流程，不才面做了干声处理。

2.声音提取：

运行 “go-webui.bat” 后，会打开一个Web界面。

用户可以通过浏览器访问该界面，

选择 0a-UVR5人声伴奏分离&去混响去延迟工具页签下

我们须要勾选 “是否开启UVR5-WebUI” 提取声音，制作干声。

稍等一下，会打开一个新的WebUI界面。

我们提取干声的操作，将在这个界面内完成。

将准备的音频或者视频拖放到左下面的框框内

选择处理的模型，我的视频声音比较干净，模型可以选择HP2。
如果背景声音很喧华，可以选择HP3。

选择输出格式，点击 “转换”。

转换成功，在整合包output路径下找到uvr5的输出目录。

3.语音切分：

关闭 “是否开启UVR5-WebUI”，开释显存。

删除刚刚音频分离路径下的背景声音，并将路径复制到下面的框框里。

选择，0b-语音切分工具页签

点击 “开始语音切割”

完成后，会在\output\slicer_opt路径下看到切割后的所有音频文件。

4.语音识别：

选择 0c-中文批量离线ASR工具页签下，

将刚刚上面的分类目录路径复制到下面ASR中

点击“开启离线批量ASR”

完成后在\output\asr_opt目录下。

5.开启标注工具：

选择 0d-语音文本校正标注工具页签下，

把上面ASR天生的list文件填写到下面的标注文件路径中，把稳是全路径指向list

点击“是否开启打标WebUI” 提示打标工具已开启.

稍作等待会打开新的WebUI窗口，下面是标注工具WebUI界面。

我们将在这个界面里面进行文本校正，修正标点符号与停顿同等。

听不清，有杂音，语速乱的建议删除。
或者回去进行音源调度。

删除办法是先勾选，然后“删除”。

一定要点“上一页”和“下一页”看全部的，以免漏下。
没问题后点击保存，提交文本。

数据会储存到slicer_opt.list中。

以上前置获取数据集事情，我们已经完成了。

二.演习模型

1.演习集格式化：

点击1A-演习集格式化工具，进入演习集格式化界面。

填写演习的模型名称，填写上面数据集的list目录和音频切分的目录。

点击下面按钮“开启一键三连”

结束后，我们会在\logs\YeShu文件下瞥见23456

这里我们得到后面须要演习的特色缓存文件。

2.微调演习：

点击1B-微调演习页签，进入子模型演习界面。

我们须要开启两个微调子模型的演习，参数默认即可。

推举20系以上N卡，8G以上显存，不足可以降落batch_size的数值。

点击“开始SoVITS演习”和“开始GPT演习”

VITS还是很须要韶光的，等待完成。

OK完成，到此微调模型完。

3.推理：

点击1C-推理页签，进入推理界面。

首先我们点击“刷新模型路径按钮” 将刚刚演习的子模型拉取进来。

然后点击 “是否开启TTS推理WebUI” 按钮皆可开启推理

略作等待，会弹出推理WebUI界面。

推理前我们须要给它一个目标音色参考音频，去logs下取一个音频。

\logs\YeShu\5-wav32k

文本可以在\logs\YeShu\这个路径，这个文件里找到。

我们将音频和笔墨，还有语音填入推理界面相应的位置。

然后将我们想说的文本，填写到下面。
并且选择一种切分办法，或者自己手动切分。

点击“合针言音”

到此，推理部分完。

我们现在已经得到了一个演习完成的TTS模型。

可以在推理界面输入任何文本，让其进行朗读。

三.实时变声：

后续的变声部分还在更新当中

结语：

GPT-SoVITS通过其强大的功能和易用性，为语音技能的爱好者和开拓者供应了一个强大的工具，使得语音合成、识别和处理变得更加高效和便捷。
随着技能的不断进步，我们希望，GPT-SoVITS-WebUI将在未来的日子里，为语音技能的探索和运用带来更多的可能性。

完over。

关注我们，理解更多。

每期AI知识网

GPTSoVITSWebUI实测一键支配今朝最好的中文声音克隆对象

Photoshop衬着出五光十色的照片用的是实色混淆模式没想到吧

PS合成图片运用PS合成一张神话色彩浓重的女娲补天插图

每期AI知识网

GPTSoVITSWebUI实测 一键支配今朝最好的中文声音克隆对象

Photoshop衬着出五光十色的照片用的是实色混淆模式没想到吧

PS合成图片运用PS合成一张神话色彩浓重的女娲补天插图

GPTSoVITSWebUI实测一键支配今朝最好的中文声音克隆对象