FunAudioLLM 项目包含两个模型:SenseVoice 和 CosyVoice。
这两个模型分别专注于语音识别和语音天生,共同构建起一个完全、高效的音频处理体系。

SenseVoice:高精度多措辞语音识别

SenseVoice 专注于高精度多措辞语音识别、情绪辨识和音频事宜检测。
它支持超过50种措辞识别,效果显著优于业界有名的 Whisper 模型,尤其在中文和粤语方面提升了50%以上。

SenseVoice 在情绪识别方面表现出色,能够识别音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见的人机交互事宜,并在多项测试中取得了 SOTA 的成绩。

阿里开源音频识别生成模型用AI玩弄语音附一键运行包

CosyVoice:自然流畅的语音天生

CosyVoice 则专注于自然语音天生,支持多种措辞、音色和情绪掌握。
它能天生中英日粵韩5种措辞的音频,效果显著优于传统的语音天生模型。

CosyVoice 的独特之处在于,它仅须要3~10秒的参考音频,就能克隆音色,乃至包括韵律、情绪等细节,还能实现跨语种语音天生。
更主要的是,CosyVoice 支持以富文本或自然措辞的形式,对天生语音的情绪和韵律进行细粒度的掌握,使音频的情绪表现力得到显著提升。

技能事理

CosyVoice:

CosyVoice 是一款基于语音量化编码的语音天生大模型。
它对语音进行离散化编码,并依托大模型技能,实现自然流畅的语音天生体验。
与传统语音天生技能比较,CosyVoice 具有韵律自然、音色逼真等特点。
CosyVoice 支持多达5种措辞,同时还支持以自然措辞或富文本形式对天生语音进行情绪等维度的细粒度掌握。

研究团队分别在开源中文数据集Aishell3以及英文数据集LibriTTS上,通过语音识别测试了合成音频的内容同等性。
通过与原始音频以及最近大火的ChatTTS比拟,可以创造CosyVoice的合成音频在内容同等性上更高,并且没有很少存在幻觉额外多字的征象。

SenseVoice:

SenseVoice 是一个根本语音理解模型,具备多种语音理解能力,涵盖了自动语音识别 (ASR)、措辞识别 (LID)、情绪识别 (SER) 以及音频事宜检测 (AED)。
该模型旨在供应全面的语音处理功能,从而支持构建更繁芜的语音交互系统。

多措辞语音识别:经由超过40万小时的数据演习,支持超过50种措辞,识别性能超越Whisper模型。

富转录:

拥有精良的感情识别能力,在测试数据上达到并超越目前最好的感情识别模型的有效性。

供应声音事宜检测能力,支持背景音乐、掌声、笑声、哭声、咳嗽声、打喷嚏声等多种常见人机交互事宜的检测。

高效推理: SenseVoice-Small 模型采取非自回归端到端框架,推理延迟极低,处理 10 秒音频仅需 70 毫秒,比 Whisper-Large 快 15 倍。

便捷的微调:供应便捷的微调脚本和策略,让用户根据业务场景轻松办理长尾样本问题。

FunAudioLLM 多场景运用:

支持语音翻译、语音对话、互动播客、有声读物等多种运用处景。

智能客服: 供应更自然、更人性化的语音交互体验,提升用户满意度。

虚拟助手: 通过语音识别和语音天生技能,打造更强大的语音助手,为用户供应更便捷、更智能的做事。

多措辞学习: 供应更便捷、更有效的语音学习工具,帮助用户轻松学习不同措辞。

开源及利用

SenseVoice和CosyVoice模型和代码已在 ModelScope 和 Github 上开源,方便开拓者进行二次开拓和运用。

SenseVoice和CosyVoice都在魔搭社区上开放了网页界口试用

CosyVoice一键运行包

对普通用户来说,CosyVoice的语音克隆和语音天生是最实用的了。
网上很多大神都开拓了一键运行包,我试用了几个,选了B站大神刘悦的一键运行包,由于这个功能更全,完全复现了官方的所有功能。

下面以语音克隆和生成功能大略先容一下怎么利用。

这是Windows版须要英伟达显卡,解压到本地电脑就可一键运行。
在一键运行前,最好点一下“GPU测试”那个批处理文件,看看能否识别显卡,然后点击“运行-CosyVoice-300M”。

点击“3s连忙复刻”选项进行语音克隆,输入要合成的语音文本内容,上传参考语音。

输入参考语音的文本内容,点击天生音频,天生速率很快(取决于显卡和参考语音长度)。
天生语音后可以播放和下载。
如果要保存克隆的音色样本,在音色名称栏输入要保存的音色名,点击保存。

CosyVoice的功能可做很多运用,个人来说可以做电影搞笑配音、有声读物等,大家自己探索吧。

项目地址:

github.com/FunAudioLLM

SenseVoice在线利用:

www.modelscope.cn/studios/iic/sensevoice

CosyVoice在线利用:

www.modelscope.cn/studios/iic/cosyvoice-300M

文章来源于火星AIGC,作者开山怪

原文链接:https://mp.weixin.qq.com/s/4Gd4m4m3V3Y_ebF6OEhqpw