陈沛/文 纵不雅观AI领域近几十年来的发展进程,除了算法层面的架构创新和算力层面的规模倍增,数据层面的变革也是驱动AI发展的主要一环。

例如,十几年前ImageNet和MS COCO的涌现,极大推动了打算机视觉和物体识别运用的发展。
而近两年以OpenAI的GPT系列模型为代表的天生式AI,则是利用大规模来自网页、书本、文章的文本数据进行演习,呈现出了打破性的天生能力。

在数据层面,紧张涉及数据集和基准测试两个领域。
前者为AI模型供应演习和微调的材料,后者供应了评估AI模型性能的标准方法。

在数据集领域,高质量多模态数据集频现

新V不雅观海外数据集和基准测试变革预示AI能力突变

数据集包括了AI模型学习和模拟的数据,数据集的质量直接影响到模型的效果。
一个高质量数据集常日兼具多样性、代表性、平衡性、规模性等特点。

多样性确保模型能够处理各种输入,代表性担保数据集真实反响现实天下分布情形,平衡性避免模型产生偏见,规模性则可以提高模型的泛化能力。

为提升AI模型处理多模态信息的能力,近期业界陆续涌现了谷歌的DOCCI、字节跳动的COCONut、Reka AI的Vibe-Eval、MBZUAI的CVRR-ES等多模态高质量数据集,涵盖图片、文本、视频等形式,演习AI模型识别视频、理解图像、剖析语境和天生推理结果。

在基准测试领域,动态测试愈发受到重视

基准测试是评估AI模型性能的主要工具,常日包括一系列设计好的问答任务,用来系统评估AI模型在特界说务上的表现,帮助AI研究者和开拓者理解模型在实际运用中的有效性和局限性,以及比较不同模型的性能得分。

但是这些基准测试都是静态测试,如果AI模型仅针对某一基准进行演习微调,那么可能会涌现过拟合,用户实际体验到的能力反而一样平常。
因此以Chatbot Arena为代表的实时动态测试被认为更能符合模型实际能力。

近期,Chatbot Arena背后团队进一步推出了升级版Arena Hard排行榜,完备基于500个高质量评估的动态测试结果进行排名,并且减少了不同模型能力置信区间重叠的情形,拉开得分差距。
动态测试的理念正在受到更多关注。

数据集和基准测试开始面临新的寻衅

首先,高质量数据集的构建非常耗时,人工标注的事情本钱也非常高昂。
其次,每一类基准测试,都要在效率、本钱、有效性之间探求平衡。
末了,随着AI运用快速发展,旧的数据集和基准测试可能很快就会过期,无法知足新的需求。

在如今的AI数据层面,通过“众包+调查”的方法广泛网络数据和反馈,或是通过合成技能掌握数据天生,成为业内的关注焦点。
研究社区也在持续发布开放的数据集和评估方法,以供研究利用。
新的基准测试也在不断被开拓出来,用来评估模型在更繁芜、更靠近现实天下场景中的能力。

透过这些数据层面的变革,我们不仅可以期待涌现更多高质量数据集与基准测试,还可以预见AI技能能力的下一次突变或许就在不远的未来。