虽然电视剧《狂飙》已经迎来了大结局,但热度仍旧没有丝毫减弱,有的网友利用剧中人物创作娱乐视频,也有的网友剪辑个中精彩片段。
不过,还有一些“较真”的网友,创造《狂飙》中的一些人物对话,配音和嘴型对不上,于是便想通过人工智能进行唇语识别,还原最初的剧本情节。

然而,AI读唇语并非只能被用于破译“隐蔽剧情”。
据统计,我国听力残障人口超过2054万,除了紧张的手语互换外,读唇语也是他们主要的沟通办法。
但人工解读唇语随意马虎受到个人履历、视觉感想熏染能力、措辞理解能力等成分影响,在精确率方面差强人意,于是人们开始考试测验利用AI技能来解读唇语。

比唇语专家更懂唇语

“所谓AI读唇语,即人工智能唇语识别,其核心技能框架为视觉识别和自然措辞处理。
”北京理工大学打算机学院副教授、网络与安全研究所所长闫怀志先容道,详细而言,便是利用机器视觉技能,将人脸从图像中连续识别出来,并提取个中连续的口型变革特色,输入至唇语识别模型,辨识出该人物口型对应的发音,进而输出可能性最大的表达语句。

动动嘴皮子AI就能知道你在说啥当心隐私泄露

“视觉识别和自然措辞处理分别有着弘大的技能体系和不同的技能路线,但究实在质,都是通过大量的唇语数据来演习AI模型,力求文本输出的准确性。
”闫怀志补充道。

近几年,不断有AI巨子开始在唇语识别赛道上作出考试测验。
谷歌旗下Deep Mind公司就与英国牛津大学互助,研发出了一款AI读唇语软件,通过让AI读唇语软件“收看”数千小时的电视节目来演习其唇语识别能力。
故意思的是,在随机抽取200个视频片段的读唇语测试中,AI读唇语软件的准确率达到了46.8%,而经由专业演习的人类读唇语专家,准确率仅为12.4%。

为何AI读唇语能够悄然兴起?闫怀志给出了自己的剖析:一是强烈的需求牵引,二是巨大的技能推动。
从需求牵引来说,唇语识别不仅可为部分残障人士供应方便,更可以在公共安防等诸多领域发挥巨大浸染;从技能推动来说,由于AI算法、算力以及数据瓶颈被不断打破,使得AI技能在唇语识别领域取得较大成功成为现实。

浩瀚难题有待打破

不过,闫怀志也表示,目前我国人工智能唇语识别技能尚处于起步阶段,若想利用人工智能准确地识别唇语,还有很长的路要走。

从措辞本身来看,人类措辞具有较高的繁芜性,在人类话语所涉及的所有音标中,仅有30%旁边是直接由人类嘴唇来掌握的,70%是难以通过肉眼,乃至是机器视觉区分的齿音、舌音以及喉音。
而且,不同人说话的语气、方言、连词、口音,乃至髯毛遮盖等成分,都会导致嘴型的细微变革,而正好是这种细微变革,会严重影响人工智能对付唇语的识别和判断。

从技能层面来看,人工智能采集唇语的环境常日较为繁芜,若想精准识别难度很高。
以目前的人工智能技能而言,对付长句、繁芜句式等的识别水平不尽如人意,更不用说还存在着多场景识别、多人像唇语识别等问题。

闫怀志表示,只有办理了上述问题,AI读唇语才能得到打破性提升,迈向成熟发展阶段。

人类不同语种之间千差万别,AI能读懂每个语种的唇语吗?

闫怀志先容,此前较为成功的AI读唇语系统大多仅限于英语模型,这是由于多数AI模型都是基于英语数据演习而得。
但是,从技能框架上来说,不同语种的演习模型是基本同等的,或者说可以依赖于同一类技能手段来实现。

当然,为了适应不同语种的唇语识别,也须要作一些适应性调度:一方面要选择对应语种的数据进行有针对性的演习;另一方面,还须要对AI模型进行调度,比如纳入韶光屏蔽、优化措辞模型以及改进超参数等。

此外,同一语种也会有不同口型,即便口型类似,也可能代表着完备不同的意思。
因此,成熟的AI读唇语系统须要大量的唇语特色样本数据,并尽可能地覆盖多种运用处景、多类型的说话人群,借此来提升演习后的唇语识别模型的泛化能力,提高AI读唇语对付不同口型和不同表意措辞的识别准确率。

亟须监管的技能双刃剑

只管存在各类难题,但仍有越来越多的AI企业开始涉足并操持深耕人工智能唇语识别赛道。
目前来看,各大AI巨子的选择不尽相同,详细可分为唇语数据、唇语视频识别、唇语理解等。

闫怀志也表示,目前许多人工智能唇语识别技能领域已实现初步打破,全链条集成前景可期,家当集群正在逐步形成。

从运用处景来看,AI读唇语在社会公益、公共安全等领域都已开始崭露锋芒。
从目前各大巨子的布局以及干系技能的发展趋势来看,AI读唇语预期可在身份识别、国家安全、聪慧系统等方面具有广阔的运用前景。
“可以想见,由于公益、公共安全、国家安全等领域巨大的潜在需求的牵引,以及AI技能飞速发展的强力推动浸染,在不久的将来,AI读唇语有望实现快速推广与深度遍及,家当前景十分可期。
”闫怀志说。

例如,在安防安监领域,很多安监场景噪音较大或仅有视频旗子暗记,无法准确捕捉声音,人工智能唇语识别技能就能派上用场;在身份识别领域,可以利用AI读唇语来实现口型支付密码输入,“动动嘴唇”就能实现身份识别和支付交易;在公共安全领域,利用AI读唇语,可以在各种视频等分析案件当事人的唇语信息,赞助案件侦查事情;在聪慧系统领域,可利用AI读唇语来实现“无声胜有声”——只依赖口型来掌握智能设备,比如智能家电等。

当然,技能运用是把双刃剑。
很多人担心,AI读唇语会使人们对话中的隐私内容遭到透露,无论当事人是公开拓言、窃窃密语或是自言自语。
“张张嘴”就被别人盗取谈天内容,仔细想来确实恐怖。

闫怀志表示,这种担心并非杞人忧天。
AI读唇语导致的隐私透露,一方面可能是有人恶意进行唇语获取识别,另一方面也可能是正常利用的AI读唇语系统,但个中的存储、利用等环节保护不当,导致干系数据被盗取或滥用,进而对个人权柄造成危害。
而且,由于涉及到当事人的对话内容,具有明显的方向性,这种隐私透露的危害性可能要比普通的个人信息透露更为严重。

因此,闫怀志建议,应从隐私安全保护的角度,在管理层面加强干系法律法规的制订,严格规范和约束AI读唇语的运用处景、范围和目的,加大对技能恶意利用的监管和惩戒力度。
此外,还要在技能层面加强AI读唇语系统的安全保护体系培植,以技能手段提高系统的识别精准度,避免技能滥用,切实保障用户对话的内容安全。

来源: 科技日报