▌办理方案:AI唇语识别

▌所属行业:公安、教诲

▌运用处景:破案侦查、身份识别、残障教诲

▌关键技能:人脸识别、语音识别、大数据打算、深度学习

AI读唇术这个技能很逆天啊

▌供应商:谷歌、搜狗、海云数据等

2018年4月,亳州一女大学生(化名小丽)在外地陷入传销陷阱,被限定人身自由。

亳州警方接到报警后,民警让小丽的同学与她视频谈天创造,女大学生趁监视她的女子不把稳时,多次做出同一个口型,很像是“洛阳,救我!

经由综合剖析,民警认为女大学生很有可能陷入了传销组织,并被人掌握,地点就在洛阳。

民警及时联系洛阳警方,将小丽救了出来,并抓获造孽传销职员二十余人。

聪明的小丽,用唇语把关键信息通报出来,好在有履历的警察读懂了唇语。
如果没有这个能读懂“唇语”的警察,怎么办呢?

没紧要,我们有AI唇语识别,还是能读懂小丽的唇语求救旗子暗记!

如果有了AI唇语识别

在中国,视频监控布满了大街小巷,警察叔叔相称于多了一双眼不雅观六路的眼睛。

但视频监控里的人说了什么,没法听清楚。
眼下,一个神奇的技能——AI唇语识别——这无疑是给警察叔叔带来一双耳听八方的耳朵。

这也将为公共安防奇迹带来打开一个崭新的视听天下,睁大眼睛,来感想熏染一下唇语识别的魅力!

啥?你在说啥?

你看出来她说在什么吗?让我们来看看电脑的答案。

句子:Place blue in m1 soon.

预测:Place blue in m1 soon.

(尽快在m1中放置蓝色)

虽然我等凡人是不明白她在说什么,但AI唇语识别可以。

啥是AI唇语识别

AI唇语识别——通过机器视觉识别,不用听声音,仅靠识别说话人的唇部动作,就能解读说话者所说的内容。

要理解这个AI唇语识别,须要把稳这几个关键词:

利用机器视觉技能从视频中识别出说话人的人脸,提取此人连续说话时口型变革的特色。

将连续变革的特色输入到唇语识别模型中,识别说话人口型对应的发音,利用大数据打算出可能性最大的自然措辞语句。

图中字幕是由谷歌AI通过唇读实时同步输出,语速之快,难度之大

在唇语识别过程中,口型与发音,发音与笔墨之间,并不是唯一对应的关系,常常有多个可能的备选结果,须要实时打算出可能性最大的结果。

这个就好比,中国汉字有很拼音是一样的,输入拼音【zhidao】,输入法会显示“知道、直到、执导、之道、制导、之岛……”,我们须要人为选择自己须要的是哪个词。

AI唇语识别如何识别的呢?

AI唇语识别技能事理:

唇语识别技能从镜头输入到理解输出,中间最主要的关键是:视觉前段、视觉特色提取、唇动识别。

➀ 视觉前段——包括人脸检测与唇的检测和定位,先用人脸检测演算法得到人脸然后有针对性的定位唇动;

或者利用最佳闽值二值化演算法,以唇的边缘是平滑的,和旁边形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。

➁ 视觉特色提取——是对获取的唇图像进行处理得到对应特色,特色提取方法紧张分为基于图元的方法和基于模型的方法两大类;

搜狗所用的基于模型的方法便是,对唇的轮廓建立一个模型,将特色资讯包含在这个模型之中,并对模型中特色资讯的变革用一个小的参数来描述。

这类方法的优点是主要特色被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺陷是忽略了细微的三维资讯,可能会对后面的识别过程造成影响。

➂ 唇动识别——目前采取的技能大多是隐玛律可夫模型(Hidden Markov Model),该模型认为唇动旗子暗记在极短韶光内是线性的,可以用线性参数模型来表示,然后将许多线性模型在韶光上串接起来,组成一条玛律可夫链。

玛律可夫链可以用来描述统计特色资讯的变革,并且这种变革过程与人的唇动过程是相吻合的,以是隐玛律可夫模型能够识别唇动并与相应语句匹配转化成笔墨。

如何培养AI唇语识别专家

这样的稀缺人才,很多行业都想要一个。
如何培养一个AI唇语识别专家,最好的“语料”便是海量的优质视频数据。

谷歌的人工智能公司DeepMind:利用总长超过5000小时(2010 年 1 月至 2015 年 12 月间的电视节目素材,如BBC 各种节目,总语句超过118000的新闻视频)完成了对人工智能的演习;

然后利用 2016 年 3 月 至9 月间播出的节目进行测试——结果创造,给予相同的视频素材,专业唇语识别专家能达到12.4%的精确率,而AI系统识别精确率则是46.8%,赶过了大概3倍。

谷歌 DeepMind 音文唇语识别系统便已经可以支持 17500 个词。

海云数据,截至目前他们演习新闻类节目时长是1万小时。
为什么是新闻类节目?当然是由于播音员的唇语最标准。

目前,海云数据在英文方面可以达到80%的准确度,中文方面是71%

海云数据的AI唇语识别测试

搜狗的通用识别准确率在60%以上,而在车载、聪慧家居等垂直场景下,准确率高达90%。

从视频中可以看出将面部放入椭圆形区域内,不发声的说出一段话,险些说完的瞬间,识别的笔墨就涌如今屏幕上,无论是口语、诗词、歌词还是绕口令,都能很好的识别。

搜狗的AI唇语识别测试

AI唇语识别的运用前景

AI唇语识别还没有到商用的地步(一样平常识别率高于95%即可达到商用标准),但随着技能的不断进步和识别率的提升,唇语识别市场或将迎来爆发,其对应的安防、公共安全、身份识别、残障教诲等行业也将发生巨大的变革。

可以预见,在未来,当古老的读唇术被人工智能发挥到极致,希望天下会变得更好