在人工智能的浪潮中,语音技能的改造正以前所未有的速率推进。GPT-SoVITS-WebUI正引领着这一变革。它可以用非常少的声音源快速地演习出一个TTS模型。
这个强大的Web界面临象不仅供应了零次学习和少量次学习的文本到语音(TTS)功能,还支持跨措辞的语音转换,为语音技能的爱好者和开拓者打开了一扇新的大门。
我用不到1分钟‘爷叔’的音源,推理后的效果:
视频加载中...
功能亮点:
1.零次TTS:只需输入一段5秒的语音样本,GPT-SoVITS-WebUI就能立即将其转换为文本,让你体验到即时的语音到文本的转换。
2.少次TTS:通过微调模型,只需1分钟的演习数据,就能显著提升语音的相似度和真实感,这对付个性化语音合成尤为关键。
3.跨措辞支持:GPT-SoVITS-WebUI能够处理与演习数据集不同措辞的语音,目前支持英语、日语和中文,这大大拓宽了其运用范围。
4.WebUI工具集成:工具中集成了多种实用功能,如语音伴奏分离、自动演习集分割、中文自动语音识别(ASR)和文本标注,这些工具对付初学者来说尤其友好,可以帮助他们轻松创建演习数据集和GPT/SoVITS模型。
环境准备与安装:
开源地址:
https://github.com/RVC-Boss/GPT-SoVITS
对付Windows用户,安装GPT-SoVITS-WebUI非常大略,只需下载预压缩包,解压后双击运行即可。而对付Python和PyTorch版本,工具已经经由Python 3.9、PyTorch 2.0.1和CUDA 11的测试,确保了兼容性和稳定性。
一.安装步骤:
1. 整合包资源获取,"大众年夜众号回答GSV
2. 解压到任意目录。
3. 双击`go-webui.bat`文件启动GPT-SoVITS-WebUI。
二.对付其他操作系统,可以通过以下步骤手动安装:
创建一个新的Conda环境:
conda create -n GPTSoVits python=3.9
2.激活环境:
conda activate GPTSoVits
3.运行安装脚本:
bashinstall.sh
4.安装额外的Pip包:
pip install torch numpy scipy tensorboard librosa==0.9.2 numba==0.56.4 pytorch-lightning gradio==3.14.0 ffmpeg-python onnxruntime tqdm cn2an pypinyin pyopenjtalk g2p_en chardet
5.如果须要中文ASR,安装FunASR:
pip install modelscope torchaudio sentencepiece funasr
预演习模型与数据集格式
GPT-SoVITS-WebUI供应了预演习模型,用户可以从官方网站下载并放置在指定目录。对付中文ASR,须要下载额外的模型。数据集的格式遵照特定的.list文件格式,措辞字典定义了不同措辞的缩写,如'zh'代表中文,'ja'代表日语,'en'代表英语。
如何利用:
一.获取前置数据集
1.准备音源:
音源1分钟以内,视频,音频都可以。我准备的是当下大火的剧《繁花》里面爷叔的视频,他的声音很干净。资源可在"大众年夜众号回答繁花
但我还是按流程,不才面做了干声处理。
2.声音提取:
运行 “go-webui.bat” 后,会打开一个Web界面。
用户可以通过浏览器访问该界面,
选择 0a-UVR5人声伴奏分离&去混响去延迟工具页签下
我们须要勾选 “是否开启UVR5-WebUI” 提取声音,制作干声。
稍等一下,会打开一个新的WebUI界面。
我们提取干声的操作,将在这个界面内完成。
将准备的音频或者视频拖放到左下面的框框内
选择处理的模型,我的视频声音比较干净,模型可以选择HP2。如果背景声音很喧华,可以选择HP3。
选择输出格式,点击 “转换”。
转换成功,在整合包output路径下找到uvr5的输出目录。
3.语音切分:
关闭 “是否开启UVR5-WebUI”,开释显存。
删除刚刚音频分离路径下的背景声音,并将路径复制到下面的框框里。
选择,0b-语音切分工具页签
点击 “开始语音切割”
完成后,会在\output\slicer_opt路径下看到切割后的所有音频文件。
4.语音识别:
选择 0c-中文批量离线ASR工具页签下,
将刚刚上面的分类目录路径复制到下面ASR中
点击“开启离线批量ASR”
完成后在\output\asr_opt目录下。
5.开启标注工具:
选择 0d-语音文本校正标注工具 页签下,
把上面ASR天生的list文件填写到下面的标注文件路径中,把稳是全路径指向list
点击“是否开启打标WebUI” 提示打标工具已开启.
稍作等待会打开新的WebUI窗口,下面是标注工具WebUI界面。
我们将在这个界面里面进行文本校正,修正标点符号与停顿同等。
听不清,有杂音,语速乱的建议删除。或者回去进行音源调度。
删除办法是先勾选,然后“删除”。
一定要点“上一页”和“下一页”看全部的,以免漏下。没问题后点击保存,提交文本。
数据会储存到slicer_opt.list中。
以上前置获取数据集事情,我们已经完成了。
二.演习模型
1.演习集格式化:
点击1A-演习集格式化工具,进入演习集格式化界面。
填写演习的模型名称,填写上面数据集的list目录和音频切分的目录。
点击下面按钮“开启一键三连”
结束后,我们会在\logs\YeShu文件下瞥见23456
这里我们得到后面须要演习的特色缓存文件。
2.微调演习:
点击1B-微调演习页签,进入子模型演习界面。
我们须要开启两个微调子模型的演习,参数默认即可。
推举20系以上N卡,8G以上显存,不足可以降落batch_size的数值。
点击“开始SoVITS演习”和“开始GPT演习”
VITS还是很须要韶光的,等待完成。
OK完成,到此微调模型完。
3.推理:
点击1C-推理页签,进入推理界面。
首先我们点击“刷新模型路径按钮” 将刚刚演习的子模型拉取进来。
然后点击 “是否开启TTS推理WebUI” 按钮皆可开启推理
略作等待,会弹出推理WebUI界面。
推理前我们须要给它一个目标音色参考音频,去logs下取一个音频。
\logs\YeShu\5-wav32k
文本可以在\logs\YeShu\这个路径,这个文件里找到。
我们将音频和笔墨,还有语音填入推理界面相应的位置。
然后将我们想说的文本,填写到下面。并且选择一种切分办法,或者自己手动切分。
点击“合针言音”
到此,推理部分完。
我们现在已经得到了一个演习完成的TTS模型。
可以在推理界面输入任何文本,让其进行朗读。
三.实时变声:
后续的变声部分还在更新当中
结语:
GPT-SoVITS通过其强大的功能和易用性,为语音技能的爱好者和开拓者供应了一个强大的工具,使得语音合成、识别和处理变得更加高效和便捷。随着技能的不断进步,我们希望,GPT-SoVITS-WebUI将在未来的日子里,为语音技能的探索和运用带来更多的可能性。
完over。
关注我们,理解更多。