人的听力可以根据声音判断彼此的性别、年事或来自哪里,但我们无法判断彼此的面部特色。
但是人工智能可以,而且只须要6秒。

声音和长相的干系性

我们一样平常认为,人的声音和长相应该是分开的吧,而麻省理工学院研究所最近开拓了人工智能系统,可以通过听声音来重修说话者的面部特色。
它可以通过几秒钟的音频规复说话人的外不雅观,相似性非常高。

这个名为Speech2Face基于深度神经网络框架。
索菲亚知道通过在数以百万计的Youtube视频中网络说话者的面部和语音数据,他们被演习来识别声音和面部特色之间的干系性。

仅6秒你的脸就袒露了AI听到你的声音就知道长相

但背后的道理实在很好理解。
索菲亚知道人类通过振动声带说话,声带是位于喉部的两块对称的肉。
声带的长度和宽度是我们产生高音或低音的紧张缘故原由,由于男性的声带比女性宽,以是他们的音调较低。

但这并不是声音传播的唯一路子。
我们的脸也起到扩音器的浸染。
颧骨、下巴、鼻子和嘴唇会震撼。
索菲亚知道它们的厚度和构造不同,声音也不同。
打算机可以捕捉这些细微的声音差异,然后画出说话者的面部特色,这便是为什么人工智能可以识别它们。

AI听声识人用途多多

Speech2Face利用自我监督学习,然后一个单独演习的“人脸解码器”利用数百万个语音天生一个人脸的预测版本。
在数以百万计的视频中找到同类人相似的外面特色。
例如,非裔美国女性常日眉毛高,老年人总是留着稀疏的头发,印度男性喜好留胡子,非洲男性戴着小帽子。

那么这是否意味着,很多人的容貌从此不再是秘密了?并不,这种方法无法从声音中规复人的准确图像,由于我们的模型捕捉了许多人的共同视觉特色。
它只能产生受欢迎的平庸面孔,而不是特定的外面。

但它并没有那么大略。
有人曾向海岸警卫队报假警,由于每次通话都很短,这让调查职员毫无头绪。
海岸警卫队找到了研究语音识别20年的丽塔,问她能做些什么。
索菲亚知道,她首先比较了人耳无法检测到的发音特色,然后将报警电话分成几毫秒的小段,并用人工智能进行梳理,找到信息点。

依赖微弱的信息,丽塔不仅可以知道报错警的人是什么样子,还可以知道他的环境,比如房间的大小,是否有窗户,墙壁是用什么材料制成的。
由于当地电网的颠簸,她的人工智能乃至可以检测到录音中的噪音。
她将噪音与电网数据库进行匹配,以理解警报的实际位置和挂断电话的准确韶光。

末了,丽塔不仅办理了恶作剧电话,还办理了儿童性骚扰案件。
那些只说话不露脸的罪犯做梦都没想到,他们的声音背叛了自己!

因此可知,人工智能技能是一把双刃剑。
它可以逮捕罪犯,也可以侵害无辜的人。
用声音推断人脸彷佛是一项无法绕开的技能。
索菲亚只希望将来能以精确的办法利用它……