量子位 | "大众号 QbitAI
什么样的手语主播能跟朱广权battle得有来有回?
话不多说,咱直接板凳瓜子备齐,一起前排围不雅观(手动狗头):
只见朱广权语速起飞,妙语连珠,频出“妖怪”口试题,但这位手语老师完备没在怕的:
如此表现,不仅口试官朱广权连连夸赞“精彩”,网友们也纷纭点赞。
没错,这位手语主播并非真人,而是一名来自百度智能云的虚拟数字人。
现在,她已正式上岗冰雪盛会,将在各种冰雪赛事中,为2780万听障人士供应24小时不间断的手语做事。
虽然是初次上岗,但这位AI手语数字人的专业度不容小觑。
根据测评,其手语可懂度能达到85%以上,与主流的中英、中日机器翻译结果相差无几。
毕竟,“台上一分钟,台下十年功”,为了给听障人士们奉上这精彩的瞬间,AI手语数字人背后的程序员们,已经下了不少苦工。
手语数字人背后的技能寻衅在聊技能之前,或许你会好奇这样一个问题,明明有字幕,为啥体育赛事等电视节目还须要手语讲授?
实际上,由于各类现实成分的制约,比起笔墨,手语对听障人士而言更加亲切,也能更快速地通报信息。
因此,屏幕一角的手语翻译,对付分外人群而言实在是一个“更加平等享受资讯”的窗口。
这也就给AI手语数字人提出了一个实质的技能问题:如何让听障人士能真正看懂数字人打出的手语?
乍一看,这便是个从语音到文本,从文本得手语符号,再得手语数字人动作的一个翻译流程,但穷究其背后的技能细节,就会创造须要战胜的难点要比表面看上去繁芜得多。
首先,语音转手语,并不是大略地构建一个语音到视觉的转换模型就行。
单就语序而言,手语和自然措辞之间就存在较大的差异。举个例子,“我想回家”这样一句话,用手语打出来的顺序实在是“家 回 我想”。
并且,手语还有措辞精简的特性,手语的描述会对口语进行精简。
也便是说,如果只是生硬地把口语中的词汇转换成手势,再把动作大略地连接起来,这样打出的手语只能说是“半吊子手语”,听障人士很丢脸懂。
其次,表情神态同样是手语表达中极为主要的部分。
有时一个手势代表好几个意思,如果没有表情和口型的合营,就可能产生误解。
除此之外,还要考虑数据匮乏、数字人动作灵巧度欠缺等各类问题。
总而言之,想要打造一个高质量手语数字人,既须要语音、视觉、自然措辞处理等AI技能同时发力,也少不了对付听障人士真实需求的深入调研。
以是,这一次百度智能云的程序员们是如何成功让AI手语主播具备助力冰雪盛会的实力的?
2个月,“做难而精确的事”研发团队接得手语数字人任务时,间隔万众期待的冰雪盛会已仅剩不到2个月的韶光。
但便是在这种险些没有韶光试错的情形下,程序员们却放弃了现成的手势汉语语料。
正如前文所言,汉语得手势的大略转换在很多情形下会让听障不雅观众产生理解歧义,实际效果实在是大打折扣的。
为了“治本”,只管面临数据须要从头采集标注、额外增加的本钱难以预估的压力,百度智能云团队还是果断选择了自然手语语料:
做就做难而精确的事。
为此,百度智能云团队联合天津理工大学,组织了上百位听障学生做语料的数据标注,同时约请手语委专家、分外教诲专家等专业人士,将大量行业知识领悟到模型效果和听障人群的体验当中。
打下了高质量的根本,接下来,便是一步步办理手语数字人“听得清”、“会翻译”、“会表达”三个问题。
“听得清”,要靠语音识别模型。
ASR语音识别方面,在NLP、语音领域有着逾10年积累的百度本身已具备成熟的办理方案,识别准确率能达到98%以上,还能hold住中英文殽杂、生僻字、方言等分外场景。
“会翻译”,用上的便是手语翻译模型。
与一样平常的措辞翻译模型不同,由于前文提到的手语表达中措辞精简等特性,手语翻译模型须要着重考虑精准度和精简度。
个中精准度影响到数字人手势的精准,而精简度会影响通报信息的及时性。
在高质量数据资源和百度多年积累的神经网络翻译技能的根本上,研发团队设计了从中文文本得手语符号的翻译方法。
通过大规模知识学习、中间件掌握等手段,研发团队成功在保障翻译准确率的情形下缩减了译文长度,实现了翻译效果和时延的平衡。
2个月的韶光里,经由6次大的版本迭代,这一手语翻译模型可懂度终极达到了85%以上,媲美主流的中英、中日等方向的机器翻译结果,达到了业界领先水平。
末了,数字人的表达靠的是动作天生模型,包括手势、口型、表情的天生。
针对手势问题,研发团队利用人体动作视觉识别技能,让AI学习手语视频,将个中的二维骨骼点转化为驱动三维数字人的手语动作,并且能够精确到每一根手指。
基于此,百度智能云已经建立起拥有近1万个手语动作的强大动作库。
而在口型和表情方面,研发团队利用创始的4D扫描数据进行演习,对表情和口型进行精准校正,通过超10万个全身多边形面、超1万个脸部面、超240个面部表情行变基、超100个身体骨骼界线,授予了手语数字人自然生动的表情。
wink、吹泡泡都不在话下:
总体上,口型天生的准确度能够超过98.5%。
“降落本钱是虚拟数字人发展的关键”说到这里,想必你也看出来了,百度智能云的程序员们能够大胆寻衅更有难度的技能路线,与百度本身长期积累的AI技能、数字人技能不无关系。
实际上,在数字人的生产上,百度已经把上述人像驱动技能、智能对话技能、语音交互技能,以及智能推举技能汇总到了其平台级产品——百度智能云曦灵平台上。
百度智能云曦灵集数字人生产、内容创作、业务配置做事为一体,无论是虚拟员工这样的做事型数字人,还是虚拟主持人、虚拟偶像这样的演艺型数字人,都能基于该平台一站式打造,乃至是“一句话天生”。
此前与马斯克妈妈梅耶·马斯克对话的百度集团数字人“希加加”:
能够弹琴献唱的“龚俊数字人”:
就都是基于百度智能云曦灵打造。
目前,百度智能云曦灵平台已经推出了3D写实、2D写实、3D卡通三条生产线,实现了银行/保险、运营商、媒体/广电、互娱/品牌商、MCN/艺人经纪等全场景覆盖,一站式打造“能听、能说、能理解、可互动”的数字人。
这就大大加速了一个数字人从设计到落地的流程,有效降落了数字人生产的本钱,为数字人的规模化运用打下了根本。
百度集团副总裁吴甜在参加央视《对话》节目录制时还谈到这样的不雅观点:
降落本钱是虚拟数字人发展的关键之一。
百度希望通过领先的全栈AI能力,把虚拟人的生产周期缩短到小时级别,降落生产本钱,并驱动天生内容。
科技让天下更公正严格提及来,数字人并不算是全新的事物。
在过去几年中,随着AI等技能的成熟,以及短视频、直播等新兴媒介需求的呈现,数字人正不断呈现出新的面貌和新的运用模式。
而从被提出到本日的广泛落地,“数字人”这一科技热词,实在也已经历了好几个认知阶段。
第一阶段,大家磋商的重点是数字人“真不真”,这是新技能之初见。
当技能落地的考试测验开始展开,第二阶段环绕“危急感”的谈论便随之而来:人们开始关注数字人是否会侵略掉人类的事情机会。
现在,或许我们对数字人的认知,又到了进入新阶段的时候。
正如AI手语数字人让冰雪赛事的魅力触达到了更多人群,越来越多的落地案例正在解释,数字人作为一种提升做事效率的办法,并非在“替代”人类事情,而是在补充人力所不能及的空缺。
这也正是科技背后真正的代价——并非取而代之,而是帮助人、做人所不能之事。
而当百度这样的科技企业,致力于降落技能的本钱、加速技能的落地,表示出的亦正是科技事情者的社会任务担当。
从这个角度来讲,前沿技能俨然不再冰冷和迢遥,而是真正在让人类共同体变得更加公正和美好。
你以为呢?
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态