数据资源场景单一且有限、算力资源存在上限且本钱高企、高端人才稀缺等问题无一不在阻碍AI家当的规模化商业落地。

而伴随着以ChatGPT为代表的大模型运用热潮的兴起,预演习大模型为办理上述问题供应了一条现实可行的技能路径,成为一张AI企业都想抓在手中的奔向“新天下”的船票。

相较于过往技能路径,预演习大模型可以大幅降落企业利用AI技能的门槛与本钱,使运用处景从“单点专用”拓展到“点线面协同”,从而挖掘数据在行业运用中潜在的巨大代价。

从NLP到CV

提及大模型,就绕不开当前火热的ChatGPT。
这款去年11月30日正式上线的运用迅速掀起新一轮AI运用热潮,其背后采取的Transformer模型更是成为学术界与家当界关注的焦点。

案例分享基于预演习大年夜模型的AI自动标注

据悉,GPT采取的为主流Transformer模型,该模型利用自把稳力机制,在NLP上表现优于RNN(循环神经网络)。
在NLP方面,Transformer模型的自把稳力机制可以为输入序列中的任意位置供应高下文,模型因此可以一次性处理所有输入数据。
相较于RNN一次只能处理一个单词的情形,Transformer模型处理速率更快,可以大幅减少演习韶光,并能够在更大规模的数据集上进行演习。
目前,基于Transformer的预演习措辞模型已成为NLP领域的主流。

事实上,大模型除了在NLP领域大放异彩外,其还可以运用在CV打算机视觉领域。
打算机视觉常见的各种场景诸如图像识别、目标检测、语义分割、三维视觉等,也可以运用把稳力机制,CV大模型(也称“大规模预演习打算机视觉模型”)应运而生,比较著名的是谷歌大脑在2020年推出的视觉Transformer(ViT)。

目前CV大模型紧张运用领域包括图像识别、图像处理、视觉理解、视觉感知等多个方向,详细运用案例诸如利用2D图像序列天生3D场景,并在点云中检测目标等等。
不过相较于NLP领域,CV大模型目前尚处于初步探索阶段。

基于预演习大模型的AI自动标注

自动驾驶紧张以打算机视觉场景为主,其最大特点是场景繁芜多变,这催生了应对海量数据处理与Corner Case问题的急迫需求,同时也推动了算法从专用小模型向通用大模型的快速演进。

算法开拓须要面对海量数据以使自动驾驶系统更加安全可靠,这样的需求下,相较于传统小模型,大模型可以更好地处理大规模数据与高繁芜度的任务。

作为行业领先的自动驾驶数据标注做事企业,曼孚科技始终关注前沿科技发展趋势,在大模型研发方面已持续投入多年,并成功运用在AI自动标注等领域。

相较于市情上存在的其他AI标注算法,曼孚科技AI预标注算法运用预演习大模型,具备较好的知识完备性,精度高,泛化能力强。

详细上风表示在:

1、大模型可以高效应对AI领域的任务Domain之间切换,在海量数据集上进行演习和优化,具有较好的知识完备性,精度高,泛化能力强;

2、大模型可以通过蒸馏、知识迁移等方法迅速提升下贱任务小模型的能力,一样平常不才游任务中基于少量数据进行微调就可以得到较好的效果;

3、大模型可以通过自动标注等方法为小模型生产出更具有针对性的数据,供小模型学习,减少对下贱任务数据标注本钱的哀求,减少开拓和迭代本钱;

4、大模型的Backbone(根本网络部分)一样平常可以利用无监督/自监督的办法在大规模的数据集上进行预演习;

5、大模型可领悟多模态数据,能有效集成NLP、视觉、语音等源数据,实现1+ 1>2的效果,进一步提升AI模型的知识完备性。

当然,运用大模型也存在一些寻衅:

1、大模型演习对付算力硬件的哀求较高,对付AI框架的优化和高度并行打算能力有很大哀求;

2、大模型的演习技能哀求较高,例如如何设计演习策略、初始化参数、模型收敛等;

3、大模型一旦确定技能路线,后续切换模型本钱较高档。

目前,曼孚科技预演习大模型在持续投入研发多年往后,已广泛运用于自动驾驶AI自动标注算法中,包括但不限于2D图像、3D点云等详细标注场景。

1、2D图像与视频交互式分割(通用场景):

对单幅图像进行少量点击即可完玉成体分割任务:

2、2/3D领悟自动标注

给定3D驾驶场景点云(连续帧序列)和对应的多视角Camera图像,对点云/Camera中的车辆、行人、道路标识等进行检测给出检测框,并针对运动物体给出运动信息预测:

上述基于预演习大模型的AI自动标注算法已运用于数个项目中。
经由实际测算显示,相较于人工标注,AI自动标注可提效数倍至数十倍,同时大幅降落数据生产本钱,知足自动驾驶落地运用对付海量高质数据的急迫需求。

未来,曼孚科技将连续专注于产品技能研发,持续完善基于预演习大模型的AI自动标注算法,提升场景适配度与精准度。
在边标边训等更多技能赞助下,实现覆盖自动驾驶各细分标注场景,助力自动驾驶早日规模商用落地。