作者 | 李水青

编辑 | 漠影

7月的第二个周末,在北京市海淀区的金隅智造中央500多平米展厅中,有20多位90后研究员正在展示他们比来的AI研究成果:VR裸手交互、跑在充电宝上的AI模型演习、自动驾驶3D检测新算法、根据组词创作的AI画师……现场参不雅观者很多,分别来自旷视各部门及伙伴公司。

这一“极客”场景,是打算机视觉龙头企业旷视科技一年一度的MegTech技能开放日现场。

裸手玩VR线稿变3D人充电宝上跑AI…旷视大年夜秀AI技能分娩力

现场事情职员见告我们,这是旷视技能人每年最主要的日子,20多个代表过去一年公司最佳AI技能研究的Demo(样例)从海量项目中脱颖而出,由缔造成果的研究员们自己来讲演。

很多人都知道,旷视研究院是旷视科技的核心研发根据地,是环球规模领先的打算机视觉研究院。
可以说,这一研究员团体代表着中国面向天下的AI最前沿和新鲜的人才面貌。

可以看一组数据:旷视研究院在历次打算机视觉天下顶级赛事中赢得42项天下冠军,连续三年得到天下上最威信的视觉图像理解大赛COCO的多项冠军。
根据招股书,截至2020年9月30日其拥有576项专利权,还参与订定了近20项人工智能干系的国家、行业及团体标准,并赢得了90余个全国和全行业奖项。

纵然无法定义中国AI生产力“天花板”,但这个研究院可能是最靠近“天花板”的一个团体。

那么2022年了,前沿AI技能有什么最新进展?发展到了什么程度?作为出身已11年的国产AI代表企业,旷视MegTech技能开放日是我们理解这些问题的一个透镜。

在技能开拓日上,旷视联合创始人、CEO印奇与旷视研究院根本科研卖力人张祥雨、旷视研究院算法量产卖力人周而进、旷视研究院打算拍照卖力人范浩强,对这些前沿技能成果背后的探索和理念进行了深入解读。

旷视联合创始人、CEO印奇

一、旷研院AI新妙用:裸手玩VR、线稿秒变3D数字人

盛夏的北京雨后放晴,下午三点多,旷视技能开放日展区参不雅观的人多了起来。
现场展出的AI技能Demo有20多个,涉及产品技能研发、根本算法创新、算法量产等多个方面。
智东西来到现场一探究竟,创造了以下多款“黑科技”。

1、裸手玩VR,提前体验元宇宙

在进门第一个展台,旷视展出了一款VR裸手交互Demo。
扔掉手柄,裸手操作VR该有多酷炫?这个Demo展示了通过相机捕捉手部的运动状态,实现虚拟天下的繁芜交互,可以说是让人提前体验了一把元宇宙。

研究员称,大略来说,这是基于深度学习对图像进行手部检测及关键点提取,通过对手部姿态的实时三维重修、姿态行为剖析,实现交互。

2、词语天生3D人物,画稿变动画

3D人物也是时兴的元宇宙中的一大要素,展台坐落在裸手玩VR展台阁下。

旷视本次展出了让AI根据几个词语天生3D人物的Demo,比如输入达尔文,AI就按照他的理解在几分钟内天生一个3D达尔文形象。

研究员讲解道,过去,笔墨输出3D人物每每需耗费数小时乃至数十小时。
本次,旷视通过多种体素编码方法,并利用多尺度的语义判别器,优化了 text2mesh 天生模型,大幅缩短模型天生的韶光,只需几分钟即可。

除了词语能变3D人,平面的手绘人物画也能变为3D动画。
一位旷视研究员手绘了4张卡通人物的不同侧面图,基于旷视自研的CoNR模型,就能天生活灵巧现的卡通动画人。

3、打开小程序,大家都能拥有一个AI画师

在一款名为MegLab的微信小程序中,智东西与一行人体验了“薄荷里AI画师“。

输入文本或添加想要二次创作的图片,就可以自动天生画作。
之以是名为“薄荷里”,是由于有时候天生的画作很合理,有时候不合理。
这一运用采取对抗神经网络,能大幅降落了人们创作视觉作品的门槛。

4、AI变智能教练、美妆顾问

在一个偏行业运用技能研发的展台区,我们看到AI不仅能文,还能武,充当智能教练、美妆顾问、零售专员等多种角色。

一个名为“运动猿小刚”的系统可以化身AI教练,剖析并判断人体动作和姿态,帮人们纠正运动动作。
还能化身体测员,实现运动员身份识别和认证、精确与违规动作识别、考分记录到体能信息回传等,比如他能识别立定跳远的过线、助跑等各种违规动作,还能计数。
这一产品时基于MegEngine框架,通过AIS算法生产平台研发而成。

5、充电宝能跑的AI演习

除了AI模型运用,现场旷视研究员们还展示了AI模型演习的新技能。

在现场,我们看到用一个充电宝,就跑起了一个名为ResNet-18的AI模型微调演习,均匀功率仅为 2.36W。

现场研究员见告我们,以往的AI模型演习,每每须要云端专用的打算显卡(GPU),价格昂贵、能耗很高,这对付AIoT时期的嵌入式设备并不友好。
旷视通过对打算图的设计和稠浊精度的演习策略,结合旷视天元MegEngine开源深度学习框架,令模型演习分开昂贵的GPU成为可能。

6、视觉3D检测新算法,点中窥物

值得一提的是,现场除了展出了一些和大众生活息息相关的小发明,旷视还展出了一些视觉AI根本创新。

比如,自动驾驶3D检测新算法BEVDepth,能极大增强深度感知能力,打造助力自动驾驶决策的视觉3D检测新标杆;基于物体点的半监督检测算法 PointDETR,在物体上标一个点即可得到框的标注结果,可有效办理漏标和多标等问题;目标检测器AnchorDETR,通过一个锚点就能检测多个物体,性能全面超越目前主流的DETR模型,该论文已被人工智能顶级会议AAAI-2022收录。

这些AI根本能力不是在场景化运用中能直接看到的,却是很多运用型AI创新打破的基石。

很多家当人知道,旷视自创立布局消费物联网、城市物联网、供应链物联网三大块业务。
其创立以来在数亿部手机里落舆图像识别、超画质等AI技能;为百余座海内城市、十余个国家和地区供应城市物联网办理方案……这些成果为旷视打上了安防、智好手机等标签。

而在这次技能开放日展台上,我们看到这家AI企业正在摆脱原有的标签,为VR/AR、自动驾驶、零售、教诲、美业等各行各业的数智化转型赋能。

旷视自2018年就提出“1+3”计策,个中的“3”是指三大块业务,而“1”是指AI生产力平台Brain++为代表的AI能力。
可以看到,其在AI根本能力上,旷视也正基于Brain++进行拓展。

二、AI根本研究走向“大统一”,旷视从四方面打破天花板

看完这些前沿视觉AI技能新发明,那么我们如何以此为参考认识当下视觉AI行业发展的水平呢?

要找准这一问题的时空坐标从而找到答案,对很多人来说很难。

旷视研究院根本科研卖力人张祥雨认为,不妨从回顾打算机视觉发展进程来看。

旷视研究院根本科研卖力人张祥雨

在十年前,2012年“深度学习之父”Hinton和其学生的AlexNet模型提出之后,基于深度学习的神经网络成为AI视觉发展的紧张原动力之一。
根据神经网络的用场以及构建办法的不同,大体上可以分CNN、Transformer、基于自动化神经网络架构搜索的模型、以及轻量化模型等等,这些模型都在一定韶光内极大地推动了当时AI发展的进程。

可以说,历史上每一代根本模型的打破都很大程度上促进了视觉AI的发展。

当时间来到了2022年,张祥雨认为,新的趋势已经涌现——“大”和“统一”是当今视觉AI根本研究的新趋势。

他阐明道,“大”紧张是指AI大模型,即:利用大数据、大算力和大参数量,提高模型的表达能力。
AI视觉系统常日要面对繁芜的运用处景和多种的任务,因此直接路子便是提高模型本身的表达能力,也便是所谓的“大”。

“统一”是指算法在底层正走向统一。
AI视觉研究分CNNs、VL Models、 Transformers等多个根本模型领域,以及检测、分割等多个根本运用领域,每一领域都衍生出一系列算法。
现在,通过一些特定的优化算法,这些底层算法能取得相似的性能,从而得到大略、强大、且通用的系统。

从这一角度,张祥雨解读了旷视根本模型科研的重点分为四个紧张的方向。

而本次旷视技能开放日展出的的许多成果,也能在这四个方向中找到归类。
这四个方向如下:

1、通用图像大模型。
旷视紧张着眼于构建通用的、统一的、且高性能的图像视觉大模型。

2、视频理解大模型。
旷视紧张占领困扰业界已久的长序列建模问题,找到更高效的视频模型演习、监督和运用的方法。

3、打算拍照大模型。
旷视紧张探索打算拍照大模型研究的新范式,充分从大数据中找到真实图像的先验信息,进而辅导天生更高清、高质量的图像。

4、自动驾驶感知大模型。
旷视紧张着眼于研究大略、高效、统一、且易于利用的自动驾驶模型的优化、演习和支配方法,促进自动驾驶落地。

那么在这四大方向,旷视在最近一年有哪些成果呢?张祥雨对此进行理解读。

比如,在通用大模型方面,旷视在今年打算机视觉顶级会议CVPR中,提出了一种基于大Kernel的CNN和MLP设计范式,创造其能达到视觉转换器(Vision Transformers)一样好的性能。

关于通用大模型的另一种成果,旷视称之为新型的模型规模化。
面对传统增大模型方法边际效应递减的问题,旷视今年提出了一种基于可逆、多column神经网络的Scale Up的范式,通过增加可逆column的数量来扩大化神经网络的参数和打算量。
这种方法带来的额外显存花费非常小。

再来看看备受关注的自动驾驶感知大模型。

在视觉相机感知方面,今年旷视提出了一种名为BEVDepth的新算法,这在前面提到了,这种算法能在不同数量和型号的相机上,得到精准的深度估计,车辆颠簸、抖动都不会太影响识别精度。
BEVDepth在威信的Benchmark NuSenses上,目前是Camera赛道上的第一名。

在激光雷达感知方面,旷视提出了一种新的神经网络架构,叫LargeKernel3D Network,这是在点云上的一种新型的卷积构造。
它可以支持比较稀疏化的点云建模,以及通过参数共享的办法减少了参数的利用,使得网络更为高效。
该模型在NuSenses便是激光雷达检测赛道上也是排名第一。

旷视还提出一个自动驾驶感知的新思路,一个名为PETR系列的新网络,其前期事情揭橥在今年的ECCV 2022上。
这一网络险些没有人工设计的身分,将可能极大地简化自动驾驶视觉AI系统设计。

此外,旷视还在过去一年提出了第一个真正实现端到真个多目标跟踪的框架MOTR,能在大数据上实现更好的性能;大略通用的目标检测框架YOLOX,GitHub Star已经超过6000个;在今年NTIRE,旷视的NAFNet在视觉超分辨率竞赛中夺得第一名的方案,等等。

可以看到,沿着“大统一”路径,旷视正试图从四个方面打破算法创新的天花板。

三、算法量产,旷视要打造不可复制的AI生产力

很多人可能以为,AI根本技能创新虽然很多不能直接在运用中看到。
但实际上,这却是AI技能商业化落地的基石。
而根本科研团队和能力的持续创新,则代表着驱动中国AI走向环球的精神底子。

那么,作为中国视觉AI技能前沿力量的代表,创立11年的旷视如何打造持续的AI根本技能创新能力圈?

对此,印奇在本次技能开放日中首次对外谈及了“2+1”的AIoT核心技能科研体系,即以“根本算法科研”和“规模算法量产”为两大核心的AI技能体系,和以“打算拍照学”为核心的“算法定义硬件”IoT技能体系(包括AI传感器和AI机器人)。
“这样一个‘2+1’的AIoT的科研计策也是支撑旷视未来不断走向新的AIoT商业成功的最主要的基石。

旷视联合创始人、CEO印奇

前面我们已经详细理解了旷视的AI根本科研,关于算法定义硬件,我们在之前的宣布中已有谈论(《“卷”了AI圈11年后,旷视印奇终于喊出这句话!
》)。

那么另一大关键要素“算法量产”,这一旷视实现AI根本研究和AIoT落地的主要路子,虚实又如何呢?

根据旷视研究院算法量产卖力职员周而进演讲,旷视本次推出的自研算法生产平台AIS,是旷视实现算法量产的紧张抓手。

旷视研究院算法量产卖力人周而进

根据先容,AIS平台是一个零代码自动化算法生产力工具平台。
有一个比喻可以形象地理解这一平台,就像孙悟空可以拔出毫毛生出很多猴子一样,我们可以让AI去天生AI。

详细来说,在数据处理环节,AIS平台能够给全体数据标注过程供应30倍以上的效率提升;在模型演习环节,AIS平台有一个强大的推举系统,能结合客户需求自动化地为客户适配模型进行演习;在性能剖析调优环节,AIS平台会为用户供应一个非常系统及标准化的模型诊断过程,自动化地奉告用户调优建议;当得到一个性能不错地模型之后,在硬件推理环节,AIS平台则供应标准化的硬件支配工具链,实现AIoT闭环。

“我们认为,面对纷繁繁芜的算法落地场景,标准化是我们在算法生产流程中的核心的上风,这也是算法生产平台AIS为大家供应的能力。
”周而进说。

然而,行业场景碎片化、数据生产的繁芜性、硬件的多样化等问题一贯是算法量产的主要寻衅,这也是很多AI方案难以从1到n进行复制的紧张缘故原由。

周而进认为,算法生产过程标准化才是真正有效地办理这样一个繁芜的、碎片化的算法生产所面临寻衅的手段。
这个标准化包括了数据生产的标准化、算法模型的标准化和全体推理框架的标准化。

这就有了AIS平台的应运而生,在旷视技能开放日的最正中展出的,正是这一算法量化工具;环绕它陈设的展台成果,大多是基于它生产而来。
周而进说,AIS平台基于旷视Brain++体系,在旷视自研的深度学习框架MegEngine,数据管理平台MegData和打算平台MegCompute的根本上面,进一步引出的自研的算法生产平台。

可以看到,走过11年,旷视正将算法生产力从点扩展到算法链,至今,正在铸造一个体系化、规模化算法生产机器。

这家正在接管成本、市场及国际环境多重校阅阅兵的视觉AI龙头企业,正试图打造不可复制的AI生产力。
前路依然险阻,行百里者半九十。
这是中国AI技能发展的一个缩影,在短短十几年里冲在世界前列,实质上是要追求AI生产力水平的不断强大。

结语:AI落地进入深水区,根本创新力显真章

苹果创始人史蒂夫·乔布斯曾说:“当所有人减少开支的时候,我们反而决定在低迷时连续投资。
紧张投资在研发上,发明一些新东西,一旦低潮期过去,我们就已经领先于竞争对手了。

这句话收录在《史蒂夫·乔布斯传》中,也成为阐明苹果公司持续繁荣几十年,成为环球市值第一公司的密码。

AI被认为掀起第四次工业革命的主要技能,很多人都已经在银行柜台、智好手机、阛阓零售柜以及安防、交通等各种场景中感想熏染的AI带来的真实便利。
当下,随着AI技能落地进入深水区,一方面磨练技能商业化的本领,一方面更加磨练AI企业技能底子的厚度。
而有没有持续投入的定力,是成功缔造下一代大科技公司的一个关键问题。

这也阐明了为什么大到阿里云这样的云巨子今年更加强调“Back to Basic”,以及旷视这样的视觉AI企业龙头持续强调AI根本研究。
不过,行百里者半九十,中国科技企业的前路依然充满寻衅。