近年来,随着大模型技能的加速发展,人工智能的底层技能架构持续迭代。
在AI发展的初期,人们更多地聚焦于模型算法的创新与优化,然而,随着技能的不断成熟,数据的质量和管理情形逐渐成为决定AI性能的关键成分。
据中科院声学所的张博士研究指出,在实际工程运用中,AI系统落地效果的好坏,仅有20%取决于算法本身,而别的80%则依赖于数据的质量。

对付多模态大模型的演习而言,其对数据的海量需求与网络数据资源的有限性之间的抵牾日益凸显。
如何在有限打算资源下,借助已有的大模型技能,高效高质地合成演习数据,成为了家当界和学术界共同面临的寻衅。
在此背景下,“天池Better Synth-多模态大模型数据合成寻衅赛”应运而生,作为Data-Juicer for LLMs系列赛的第四场比赛,旨在汇聚各方聪慧,探索数据合成的新方法与新策略,共同推动多模态大模型技能的创新发展。

本次大赛周期2个月,采取线上初赛与线下决赛相结合的“赛训一体”模式。
晋级军队不仅有机会与来自阿里巴巴通义实验室、NVIDIA等顶尖团队的技能专家面对面互换学习,还能在主理方统一供应的设备上进行研发与调试,确保比赛的公正性与高效性。

大赛统一利用阿里巴巴通义实验室一站式大模型数据处理系统Data-Juicer,该系统可为参赛者供应了系统化、可复用的数据处理与天生工具,极大地提高了数据合成的效率与质量。
同时,NVIDIA发布的综合性模型优化库TensorRT-Model-Optimizer等工具和FP8演习框架的加入,更是让模型演习和推理过程为虎傅翼。

高校学子和行业精英若何玩转AI大年夜模型数据生成来看看这场天池大年夜赛

自2024年8月启动以来,大赛共吸引来自清华大学、北京大学、复旦大学、度小满等海内顶尖高校、科研机构和企业的1066支军队参赛。
个中既有人工智能干系专业的专科团队,也有深耕技能的行业老兵。
经由层层筛选,终极有10支军队脱颖而出,决斗AI之巅。

比赛中也呈现出诸多创新方案。
例如VLM队针比拟赛基模特点,利用了SSIM来衡量合成数据的学习难易程度,能够使模型在小数据量下学习更好;而dxm小分队则利用了最前沿的Image Textualization技能来考试测验从合成数据中改写并肃清图文内容不对齐的幻觉,进一步提升模型的模态间对齐能力。

“天池Better Synth-多模态大模型数据合成寻衅赛”正式收官,为参赛选手带来了宝贵的实战履历和互换机会,也为多元聪慧的碰撞供应了平台,呈现出了更多数据合成的“解题思路”。
随着技能不断发展,期待各方进一步构建“数据驱动的人工智能”的新高地,引发科研生态、助力家当落地,引领多模态大模型的创新发展。