小米近期发布的小米 10 青春版手机上,小米手机官方表示该产品支持电影相机、拥有 AI 邪术分身的功能。
此前,在 Redmi K30 Pro 旗舰新品发布会上,Redmi 小爱触屏音箱支持手势识别及童脸识别等功能,小米的自研技能不断赋能小米产品。
本文就来探究近期小米发布的产品中,蕴藏了哪些 AI 技能。

AI 邪术分身功能

AI 邪术分身是小米 10 青春版的重磅产品,从字面意思就可以理解,AI 邪术分身可以在拍摄中实现多个人物同时存在,无需三脚架即可实现,操作大略易学。

AI 邪术分身功能是基于小米 AI 实验室的自研算法实现的,这一技能将 AI 视频目标检测算法、实时 SLAM 场景建模算法、AI 视频实时人像分割算法三大算法结合在一起,针对两段手持拍摄视频,实时逐帧进行对齐拼接,据悉,这是业界创始的 AI 视频对齐技能。

小米 AI 实验室视觉团队认为,创作 +AI 是未来打算机视觉发展的主要趋势之一,通过将繁芜的视频派件剪辑和创作过程引入创新的 AI 算法,实现一键的智能化操作。
此前,Vlog 的智能运镜技能和 Mi 剪辑中的智能模块匹配都是这一理念的延续。
后续,视觉团队将开拓更多引领潮流的 AI 视频创尴尬刁难象,为视频创作者供应便捷的做事。

小米产品背后的 AI 技能实践分享

AI 通话功能

AI 通话产品中,Android 端利用原生 Android APP 办法进行实现,该产品是系统级别的 APP,拥有较高的权限。
Android 端通过接入小爱 SDK 的办法得到 AI 能力,包括 ASR、NLP、TTS 等。
通过小爱 SDK 的能力可以轻松的实现人机对话。
做事端利用小爱中控架构,垂域实现集成 NLP 模型使意图识别更准确、推举语料更智能。

搭载 AI 通话功能的 MIUI 12 手机让聋哑人无障碍利用手机成为可能。
在内测过程中,AI 通话收到了一些聋哑人外卖骑手的反馈,他们希望手机能够支持拨打电话功能,研发团队根据特定人群的详细诉求,在 AI 通话技能中实现了该项功能。
用户可以自定义开场语、自由切换自动应答或手动回答,还可以定向自动接听,再也不会受到骚扰电话的影响。

运动康健功能

小米在几年前开始关注运动康健领域,这次 MIUI12 的运动模式识别功能的背后是小米自研的灵弦算法,是小米深度学习技能在运动康健领域的积累落地。
运动模式识别实质上是分类,灵弦算法办理了移动设备装戴位置不同造成的识别滋扰,保障了终极的用户体验。
灵弦算法基于小米 MACE Micro 实现,不仅数据准确精度高,而且能耗低,一整天的耗电量小于 1%(以小米 10 为例,24 小时耗电量 9.6mAH ——数据经泰尔实验室测试认证)。

MACE Micro 是 2020 年小米针对小型、低功耗微掌握器新增的 AI 引擎,微掌握器利用场景多是只须要基本运算的家电和部分物联网设备,MACE Micro 的推出及运用,用以知足此类设备的超低功耗需求,MACE Micro 在可移植、速率、内存、存储等多个层面都具备较大上风。
MACE Micro 不依赖于任何操作系统、文件系统以及运行时的支持,对算力密集型算子进行了访存优化,对模型数据进行了预处理,使得模型无需初始化即可运行推理,通过对模型的算子进行依赖剖析,引入内存复用技能,大大减少了内存的占用,核心库存储占用非常小,同时引入 bf16 格式的支持,模型存储体积减小一半。

声控拍照功能

近年来,智能语音技能已经渗透到生活的各个角落中,人们利用智能语音功能来查看景象、定闹钟、打开 APP 等,而在语音交互中,免唤醒的快捷指令词因其即说即实行的高效交互特质而受到越来越多的关注,落地也更为广泛。
MIUI12 开拓版系统中,相机运用就支持了这样一个语音 AI 快捷指令词——声控拍照。
打开这个开关后,只须要说两个字:“茄子”,或者“拍照”,相机运用就能自动完成拍摄,比拟传统按快门键的办法,可控性更高、便捷性更强。

相机 AI 声控拍照功能,是小米 AI 实验室语音团队完备自研的语音算法。
根据唤醒算法卖力人庄伟基先容,声控拍照利用的是 DNN-HMM 框架算法,基于深度学习的多指令词检测,在拍照场景去实时检测音频流中是否涌现了预先设定的关键词,如果涌现,则自动替用户完成“拍照”的操作,实现了语音即能免唤醒拍照的能力。
算法准确性高、误唤醒低,并在不同场景、机型上都表现出了比较强的鲁棒性,高适应性,准确、快速、方便,极大地提高了拍照体验。
语音团队也将持续预研在更多设备、场景下的快捷指令词,后续也将在小米系列设备中上线。

手势识别功能

手势是人们日常互换中非常主要的沟通办法,手指姿态的变换可以表达丰富的信息。
手势识别功能则是通过人工智能这一工具,在人与机器之间架起了桥梁,使机器能看懂手势所通报的信息,为人机互动又增长了一种新的模式。

在手势识别的技能中,紧张包括两个模块:手掌定位和手势分类。
个中手掌定位算法卖力从全体图像中将人的手部精准定位出来,然后将定位出来的手部区域输出给手势分类算法,由后者将手部的形状与我们熟习的手势信息进行映射分类,从而使机器能按照手势进行相应的操作。

据小米 AI 实验室视觉团队视频组卖力人赵雄表示,由于个体差异性和表达习气的不同,用户做出的手势差异很大,手势识别算法须要将符合定义的不同形态的手势全部映射成精确的分类,精准响运用户的需求。
除此之外,还须要甄别出定义之外的手势并将它们忽略,以免引起用户猜想外的误操作。
针对这个问题,视觉团队采集了大量形态互异的手势正样本和负样本,将它们纳入演习集中,使算法既可以尽可能地识别出有效手势,又可以过滤无效手势,进一步提高准确率。

以点赞手势为例,针对不同人的表达习气,视觉团队采集了大量的不同手部朝向和角度的样本,尽可能涵盖更大的范围,同时也采集了跟点赞比较靠近随意马虎引起稠浊的负样本(比如拳头),同步演习,担保了这个手势的召回率和准确率。

此外对付形态比较靠近的手势,如点赞快进和快退,为了进一步明确规范,视觉团队以拇指角度为区分标准,对这三个手势的覆盖区间进行了清晰的划分,既担保了不同用户操作的鲁棒性,又增强了灵巧性,进一步提升了用户体验。

手势识别功能一经上线,即可支持收藏、播放、停息、快进、快退 5 种手势掌握,可以在听音乐、看视频、闹钟响铃等场景下,通过手势轻松实现无触碰的交互新体验。
当用户利用抖音、爱奇艺、优酷、腾讯视频、芒果 TV 等平台时,可以利用手势进行操控,知足用户在更多场景下与音箱交互的智能体验。

童脸识别功能

音箱作为一个家庭产品,如何实现不同家庭成员之间模式的无缝切换,是困扰开拓者许久的一个问题。
这一次 Redmi 小爱触屏音箱利用童脸识别,实现了当孩子利用音箱时,可以自动进入儿童模式,开启儿童保护功能。

据小米 AI 实验室视觉团队项目经理崔雪峰讲述,童脸识别功能中,紧张包含人脸检测、关键点定位、人脸对齐和年事估计四个算法模块。
个中,前三个模块卖力从图像中定位人脸区域并转换成标准的人脸图像;年事估计模块对标准人脸图像进行处理,预测年事值。

小米童脸识别算法速率快、识别稳定、抗滋扰能力强,能够应对各种家庭儿童利用场景需求。
未来童脸识别技能将进一步细化年事检测精度,为内容推举供应依据,更加精准地针对不同年事段儿童、青少年等供应丰富多样的娱乐、影视、音乐、学习、资讯、信息类资源。

对付儿童来说,智能音箱将会既是一台影音播放器、故事机,也是一台适龄玩伴的游戏机,乃至可以是一台学习机,为幼儿早教、K12 发展教诲、措辞、技能、学科等专业类教诲供应线上传授教化做事。

结语

小米 AI 技能致力于从用户实际需求出发,以提升用户体验为理念,让用户在利用智能设备时更加便捷。
未来,小米将连续在 AI 技能领域深耕,不断地为用户带来更好的利用体验。