量子位 | "大众年夜众号 QbitAI

更适配中文的语音模型来了——

来自中国电信人工智能研究院,AI领域Fellow大满贯科学家李学龙带队,发布首个能听懂30多种多方言混说的大模型。

号称最难方言、“妖怪的措辞”的温州话,也不在话下。

最难方言温州话被占领中国电信语音大年夜模型GPT4o可不会做啊

视频加载中...

还有超自然的语音天生能力。

在2024智算云生态大会上,星辰语音大模型被官宣发布并开源。

要知道,当前语音模型开源开放本来就少,而针对方言更是特定方言特定模型。

开源且支持30种方言,有且只有星辰这么一个。

作为首个完成大措辞模型的研发且开源的央企,中国电信现在又在语音模态领域秀起了肌肉。

首个支持30种方言混说语音大模型

那就来说道这次发布的能支持最多方言的语音大模型,核心功能紧张表示在识别上——

它冲破了单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言。

实际上,它早已得到国际威信赛事的能力认证,以及多个实际场景中落地。

它在国际语音顶会INTERSPEECH2024离散语音单元建模寻衅赛上,星辰语音识别大模型斩获了语音识别赛道冠军。

同时在NIST(美国国家标准与技能研究院)举办的低资源粤语电话Babel语音识别任务上,取得业内最优结果。

并且已经在智能客服、12345热线等场景中落地。

据先容,星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点运用。
它能秒懂方言然后做事用户,日均处理约200万通电话。

智能客服翼声平台也接入了星辰大模型的语音理解和剖析能力,实现31省全覆盖,每天处理125万通客服电话。

传统语音识别模型的处理办法,是针对一种方言单独演习一个模型。

这样一方面对运营掩护提出了不小的寻衅。
这就意味着通用语音客服场景下, 须要掩护多个方言模型。

另一方面,很难触达更小众的方言,他们数据量本身比较少,标注本钱非常高,增强合成寻衅大,很难单独演习出比较好的识别效果。

但中国电信不仅发布并开源,性能水平位于业内前列,而且还十分落地,那么星辰语音大模型又是如何炼成的。

我们知道,这背后不仅是大模型演习,还有前期数据准备,后期推理加速等等一整套系统工程,对付企业是技能工程以及资源等综合能力表示。

在官方表露中,我们看到这些信息。

首先在大模型演习上,采取了这两个关键技能:超大规模语音预演习和多方言联合建模。

超大规模语音预演习。

Scaling Law成为共识,那么在大规模参数以及多样性数据集情下,很可能就会涌现模型预演习坍缩问题,即输出生成质量低落,变得重复、无意义以及缺少多样性。

为理解决这一问题,他们提出了“蒸馏+膨胀”联合演习算法,终极实现80层模型稳定演习。
据先容,这一算法是业内创始。

多方言联合建模。

基于离散语音表征,语音识别大模型通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降落数十倍。

其余,联合建模使得模型学习到了各个方言之间的共性,显著降落了对新方言标注数据的需求。
实验显示,有标注数据需求量降落为1%。

这是星辰语音大模型能率先实现单一模型识别30种方言混说的关键。

这直接办理了部分方言语音难得到、标注本钱高昂的难题。
传统那种只针对单一方言的识别方言,可能须要十万小时的标注数据量才能实现比较好的效果。
但这显然并不适宜那些小众方言的识别场景。

而在数据准备上,中国电信AI研究院透露,他们已构建超30种、超30万小时的高质量方言数据库。

在算力根本举动步伐上面,在官宣首个大模型开源时就曾表露过,中国电信作为海内最早进入云打算领域的运营商,积累了大量算力培植和算力调度的核心技能。

有数据算力资源、有技能能力和场景积累,再加上大佬把持,中国电信语音大模型由此得以炼成。

但是大模型多模态,视觉模型正热门确当下,中国电信为何选择方言这个看似“冷门”的赛道发力语音大模型呢?

为什么专为方言推出语音大模型?

在公开采访中,中国电信对这一问题做出了回应。

首先,技能代价驱动。

宏不雅观上看,我国是当前世界上措辞资源更丰富的国家之一,拥有五大语系130多种措辞。
但是当下很多方言正面临着濒危或消亡,有数据统计,有25种利用人口不敷千人,有的措辞只剩下十几个人乃至几个人会说,这对方言的保护、文化的传承提出更大寻衅。

在详细到我们日常的沟通。
有这样一组数据值得关注。
当前全国仍有约20%的人口尚未遍及普通话,沟通效率比较低。
这当中乃至还更多聚拢在老年人群体,他们还面临着无法触及信息化做事困境。

大模型的技能范式,面对这两大刚需场景,供应了天然的办理出口。

大模型本身便是数据驱动,它能够更高效、系统地对方言进行整理归纳,是方言保护和传承的天然容器,以及极强的泛化能力。
一个通用语音模型能同时实现多个任务,比如多措辞/多方言语音识别、跨措辞语音翻译、语种/感情识别等,能够轻松覆盖多语种沟通互换。

为了进一步让技能普惠的加速,电信选择了开源的办法。

中国电信人工智能研究院语音大模型卖力人李杰进一步阐明了这方面的缘故原由。

我们已将语音大模型全面开源,希望联合开拓者共建覆盖更多方言的大模型,冲破沟通壁垒,让老少边穷地区人们、老人等每个人都能享受到AI时期便利,也呼吁更多专家、方言爱好者及大众用户一起加入守护方言操持,共同传承措辞文化,推动AI普惠。

其次,业务需求导向。

作为头部运营商,中国电信最核心的业务场景便是智能客服。
“每天都能接到几百万通电话,个中很大比例是方言或者有方言口音的普通话。
”真正实践中他们创造,人们都还是更喜好用方言来进行沟通。

因此语音大模型一壁世,就率先落地到这一场景中去创造代价,逐步覆盖更多更广的地区之中。

除此之外,它还在对外输出能力以及更多场景赋能。

比如,大家所熟知的12345市场热线这个公共做事平台。
据先容,语音大模型已经赋能多地市的12345平台让每个客服职员听懂30种方言,更快地理解更多市民需求。

前段韶光,语音大模型还运用到了戒备校园霸凌中,在某小学防霸凌项目中,它采取亿级参数进行推理,可在喧华环境下精准识别关键词进行预报警。

还有它赋能的数字人,已经在多个展会亮相事情,曾在中国国际大数据家当展览会亮相,与康辉同台主持。

末了,计策支配。
此举正是中国电信「通用智能」计策支配一环。

而他们一早也提出了自己大模型领域布局:1+1+1+M+N:

1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。

最早在2022年12月就已启动了语义大模型的研发,去年数字科技生态大会上,他们发布了千亿参数星辰语义大模型,并相继开源7B、12B、52B大模型。

如今,随着包括语音大模型在内的发布,中国电信实在已经形针言义、语音、视觉以及多模态一全体全模态完备的大模型布局。

而他们终极的目标也很明确:

成为领先的通用人工智能做事供应商。

中国电信在大模型的布局

随着端到端多模态大模型GPT-4o的亮相,通用多模态更成为一种共识趋势。
而GPT-5也被爆料说将精通更多小语种和方言……

这实际与中国电信本身技能计策不谋而合。

如果谈论国产大模型玩家,中国电信一定是最为分外的那个——

不是创业公司,也并非互联网大厂,却最早入局,而且进展频频剑指通用,在业内影响不小。

跟创业公司不同的是,电信有着天然的需求驱动和运用处景。
有锤子也有钉子。

只是在纯自研星辰大模型亮相之前,大众对付电信的技能感知并非那么强烈。

实际上,他们背后搭建了一支700人的AI研发团队,70%以上来自头部互联网和AI明星企业。
再加上,AI领域Fellow大满贯科学家李学龙加盟,出任电信CTO,并组建中国电信人工智能研究院(TeleAI)。

基于这样的人才储备,他们很快同大模型头部选手们站在同一阵营,并且落地速率贼快。

而同互联网企业比较,作为国产运营商的电信,实在上风则更为明显了。

一方面,运营商有丰富的网络和算力资源,相对来说演习、推理本钱更低。
尤其在大模型的培植方面,更随意马虎发挥规模的上风。

目前,他们已打造根本模型+行业模型+运用模型的布局,除了自研本身,还采纳生态互助的办法,联合头部生态构建了涵盖教诲、政务、应急等20多个行业大模型,覆盖全行业500多个运用处景。

另一方面,有弘大的客户群体作为落地基底,以及丰富的2C、2H、2B的信息做事履历,能够更快地推动大模型在各个领域的落地,形成新的经济增长点。

这当中数据累积也构成了他们的核心壁垒。
目前,他们已经完成了超500TB文本数据、12亿张图文数据、PB级视频数据的积累。

这些上风使运营商有动力在人工智能领域加大投入,驱动技能进步。

也正因这样的技能和履历底气,他们才能早早确立目标并且有着清晰的韶光线方案。

就像最新语音大模型,他们就操持实现首个支持海内333个地市方言和紧张少数民族措辞(维藏等)的语音大模型。

关于语音大模型的进展,值得期待。

而对付AI的落地,中国电信值得关注。

开源链接:

Huggingface模型:https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0

github代码:https://github.com/Tele-AI/TeleSpeech-ASR

gitee代码:https://gitee.com/Tele-AI/TeleSpeech-ASR

— 完 —

量子位 QbitAI · 头条号签

关注我们,第一韶光获知前沿科技动态约