本地支配开源语音合成大年夜模型1000元的旧电脑也能合成自己的措辞

本地支配语音合成大模型具有以下几个主要缘故原由：

数据隐私和安全性：

在本地支配可以更好地掌握数据的访问和利用，确保敏感信息不会被传输到外部做事器，降落数据透露的风险。
例如，企业内部的机密文档须要转换为语音时，本地支配能担保这些数据的安全性。

定制化和灵巧性：

能够根据特定的需求和场景进行定制化调度和优化。
比如，某些行业可能对语音的音色、语速、语调有独特的哀求，本地支配可以更精准地知足这些分外需求。

低延迟和高稳定性：

避免了网络延迟带来的影响，供应更流畅、实时的语音合成做事。
特殊是在网络不稳定的环境中，本地支配能够担保做事的连续性和稳定性。
例如，在一些对实时性哀求极高的生产环境中，如自动化掌握系统。

本地支配开源语音合成大年夜模型1000元的旧电脑也能合成自己的措辞

节省本钱：

长期来看，对付大量的语音合成需求，本地支配可能会节省与云端做事供应商的持续交互所产生的用度。

自主可控性：

不受外部做事供应商的政策、技能变更或做事中断的影响，能够完备自主地管理和掩护语音合成系统。

开源项目网址

https://github.com/FunAudioLLM/CosyVoice

Demo

web界面

天生的音频

暂时无法在飞书文档外展示此内容

支配流程

本案例支配的环境：

宿主机：Windows11企业版

wsl2安装Ubuntu，默认Ubuntu系统

提前准备：

安装anaconda安装git安装git lfs

步骤：

克隆并安装

Clone the repo 克隆存储库

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

创建python环境并激活

conda create -n cosyvoice python=3.8conda activate cosyvoice# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.conda install -y -c conda-forge pynini==2.1.5pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

Model download 模型下载

# git模型下载，请确保已安装git lfsmkdir -p pretrained_modelsgit clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300Mgit clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFTgit clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instructgit clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

或者，您可以解压缩 ttsfrd 资源并安装 ttsfrd 包以得到更好的文本规范化性能。

请把稳，此步骤不是必需的。
如果您不安装 ttsfrd 包，我们将默认利用 WeTextProcessing。

cd pretrained_models/CosyVoice-ttsfrd/unzip resource.zip -d .pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl

基本用法

对付zero_shot/cross_lingual推理，请利用 CosyVoice-300M 模型。
对付SFT推理，请利用CosyVoice-300M-SFT模型。
对付指示推理，请利用 CosyVoice-300M-Instruct 模型。
首先，将 third_party/Matcha-TTS 添加到您的 PYTHONPATH 中。

export PYTHONPATH=third_party/Matcha-TTS

开始 Web 演示

您可以利用我们的网络演示页面来快速熟习 CosyVoice。
我们在 Web 演示中支持 sft/zero_shot/cross_lingual/instruct 推理。

# change iic/CosyVoice-300M-SFT for sft inference, or iic/CosyVoice-300M-Instruct for instruct inferencepython3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

打开浏览器，输入网址：http://localhost:50000/

在输入合成文本栏，输入笔墨，如上：

本地支配语音合成大模型具有以下几个主要缘故原由：
数据隐私和安全性：
在本地支配可以更好地掌握数据的访问和利用，确保敏感信息不会被传输到外部做事器，降落数据透露的风险。
例如，企业内部的机密文档须要转换为语音时，本地支配能担保这些数据的安全性。
点击“天生音频”，几秒钟后，即可成功天生。
音频如下：
如果能正常合成，恭喜你，支配成功了！
欢迎关注、点赞、收藏，后续有更多技巧分享，如克隆声音、多国措辞措辞天生等。

每期AI知识网

本地支配开源语音合成大年夜模型1000元的旧电脑也能合成自己的措辞

用得上的AI商业课设计商业化带你思虑带你落地全网最全

彩铅教程｜零根本来一枚水嫩的芒果肉

每期AI知识网

本地支配开源语音合成大年夜模型1000元的旧电脑也能合成自己的措辞

用得上的AI商业课设计商业化带你思虑带你落地 全网最全

彩铅教程｜零根本来一枚水嫩的芒果肉

用得上的AI商业课设计商业化带你思虑带你落地全网最全