在人工智能的浪潮中,语音技能的改造正以前所未有的速率推进。
GPT-SoVITS-WebUI正引领着这一变革。
它可以用非常少的声音源快速地演习出一个TTS模型。

这个强大的Web界面临象不仅供应了零次学习和少量次学习的文本到语音(TTS)功能,还支持跨措辞的语音转换,为语音技能的爱好者和开拓者打开了一扇新的大门。

我用不到1分钟‘爷叔’的音源,推理后的效果:

视频加载中...

GPTSoVITSWebUI实测 一键支配今朝最好的中文声音克隆对象

功能亮点:

1.零次TTS:只需输入一段5秒的语音样本,GPT-SoVITS-WebUI就能立即将其转换为文本,让你体验到即时的语音到文本的转换。

2.少次TTS:通过微调模型,只需1分钟的演习数据,就能显著提升语音的相似度和真实感,这对付个性化语音合成尤为关键。

3.跨措辞支持:GPT-SoVITS-WebUI能够处理与演习数据集不同措辞的语音,目前支持英语、日语和中文,这大大拓宽了其运用范围。

4.WebUI工具集成:工具中集成了多种实用功能,如语音伴奏分离、自动演习集分割、中文自动语音识别(ASR)和文本标注,这些工具对付初学者来说尤其友好,可以帮助他们轻松创建演习数据集和GPT/SoVITS模型。

环境准备与安装:

开源地址:

https://github.com/RVC-Boss/GPT-SoVITS

对付Windows用户,安装GPT-SoVITS-WebUI非常大略,只需下载预压缩包,解压后双击运行即可。
而对付Python和PyTorch版本,工具已经经由Python 3.9、PyTorch 2.0.1和CUDA 11的测试,确保了兼容性和稳定性。

一.安装步骤:

1. 整合包资源获取,"大众年夜众号回答GSV

2. 解压到任意目录。

3. 双击`go-webui.bat`文件启动GPT-SoVITS-WebUI。

二.对付其他操作系统,可以通过以下步骤手动安装:

创建一个新的Conda环境:

conda create -n GPTSoVits python=3.9

2.激活环境:

conda activate GPTSoVits

3.运行安装脚本:

bashinstall.sh

4.安装额外的Pip包:

pip install torch numpy scipy tensorboard librosa==0.9.2 numba==0.56.4 pytorch-lightning gradio==3.14.0 ffmpeg-python onnxruntime tqdm cn2an pypinyin pyopenjtalk g2p_en chardet

5.如果须要中文ASR,安装FunASR:

pip install modelscope torchaudio sentencepiece funasr

预演习模型与数据集格式

GPT-SoVITS-WebUI供应了预演习模型,用户可以从官方网站下载并放置在指定目录。
对付中文ASR,须要下载额外的模型。
数据集的格式遵照特定的.list文件格式,措辞字典定义了不同措辞的缩写,如'zh'代表中文,'ja'代表日语,'en'代表英语。

如何利用:

一.获取前置数据集

1.准备音源:

音源1分钟以内,视频,音频都可以。
我准备的是当下大火的剧《繁花》里面爷叔的视频,他的声音很干净。
资源可在"大众年夜众号回答繁花

但我还是按流程,不才面做了干声处理。

2.声音提取:

运行 “go-webui.bat” 后,会打开一个Web界面。

用户可以通过浏览器访问该界面,

选择 0a-UVR5人声伴奏分离&去混响去延迟工具页签下

我们须要勾选 “是否开启UVR5-WebUI” 提取声音,制作干声。

稍等一下,会打开一个新的WebUI界面。

我们提取干声的操作,将在这个界面内完成。

将准备的音频或者视频拖放到左下面的框框内

选择处理的模型,我的视频声音比较干净,模型可以选择HP2。
如果背景声音很喧华,可以选择HP3。

选择输出格式,点击 “转换”。

转换成功,在整合包output路径下找到uvr5的输出目录。

3.语音切分:

关闭 “是否开启UVR5-WebUI”,开释显存。

删除刚刚音频分离路径下的背景声音,并将路径复制到下面的框框里。

选择,0b-语音切分工具页签

点击 “开始语音切割”

完成后,会在\output\slicer_opt路径下看到切割后的所有音频文件。

4.语音识别:

选择 0c-中文批量离线ASR工具页签下,

将刚刚上面的分类目录路径复制到下面ASR中

点击“开启离线批量ASR”

完成后在\output\asr_opt目录下。

5.开启标注工具:

选择 0d-语音文本校正标注工具 页签下,

把上面ASR天生的list文件填写到下面的标注文件路径中,把稳是全路径指向list

点击“是否开启打标WebUI” 提示打标工具已开启.

稍作等待会打开新的WebUI窗口,下面是标注工具WebUI界面。

我们将在这个界面里面进行文本校正,修正标点符号与停顿同等。

听不清,有杂音,语速乱的建议删除。
或者回去进行音源调度。

删除办法是先勾选,然后“删除”。

一定要点“上一页”和“下一页”看全部的,以免漏下。
没问题后点击保存,提交文本。

数据会储存到slicer_opt.list中。

以上前置获取数据集事情,我们已经完成了。

二.演习模型

1.演习集格式化:

点击1A-演习集格式化工具,进入演习集格式化界面。

填写演习的模型名称,填写上面数据集的list目录和音频切分的目录。

点击下面按钮“开启一键三连”

结束后,我们会在\logs\YeShu文件下瞥见23456

这里我们得到后面须要演习的特色缓存文件。

2.微调演习:

点击1B-微调演习页签,进入子模型演习界面。

我们须要开启两个微调子模型的演习,参数默认即可。

推举20系以上N卡,8G以上显存,不足可以降落batch_size的数值。

点击“开始SoVITS演习”和“开始GPT演习”

VITS还是很须要韶光的,等待完成。

OK完成,到此微调模型完。

3.推理:

点击1C-推理页签,进入推理界面。

首先我们点击“刷新模型路径按钮” 将刚刚演习的子模型拉取进来。

然后点击 “是否开启TTS推理WebUI” 按钮皆可开启推理

略作等待,会弹出推理WebUI界面。

推理前我们须要给它一个目标音色参考音频,去logs下取一个音频。

\logs\YeShu\5-wav32k

文本可以在\logs\YeShu\这个路径,这个文件里找到。

我们将音频和笔墨,还有语音填入推理界面相应的位置。

然后将我们想说的文本,填写到下面。
并且选择一种切分办法,或者自己手动切分。

点击“合针言音”

到此,推理部分完。

我们现在已经得到了一个演习完成的TTS模型。

可以在推理界面输入任何文本,让其进行朗读。

三.实时变声:

后续的变声部分还在更新当中

结语:

GPT-SoVITS通过其强大的功能和易用性,为语音技能的爱好者和开拓者供应了一个强大的工具,使得语音合成、识别和处理变得更加高效和便捷。
随着技能的不断进步,我们希望,GPT-SoVITS-WebUI将在未来的日子里,为语音技能的探索和运用带来更多的可能性。

完over。

关注我们,理解更多。