图说:“司南”大措辞模型中英双语客不雅观评测前十名 采访工具供图

新民讯( 郜阳)大模型技能哪家强?30日,上海人工智能实验室科学家团队正式发布大模型开源开放评测体系“司南”(OpenCompass2.0),可以为大措辞模型、多模态模型等供应一站式评测做事。

据先容,“司南”全面量化模型在知识、措辞、理解、推理和考试等五大能力维度的表现,评测榜单涉及的大措辞模型和多模态大模型超过150个,客不雅观中立地为大模型技能的创新供应坚实的技能支撑。
截至目前,已有包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采取“司南”助力开展技能研发。

同日,还揭晓了年度大模型评测榜单,对过去一年来主流大模型进行全面评测诊断。
剖析结果显示,GPT-4 Turbo在各项评测中均获最佳表现,海内厂商近期发布的模型紧随其后,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0都得到不错的成绩。

大年夜模型技能哪家强上海人工智能实验室宣告开源开放评测体系司南

理解到,基于全新升级的能力体系和工具链,“司南”布局了一套高质量的中英文双语评测基准,涵盖措辞与理解、知识与逻辑推理、数学打算与运用、多编程措辞代码能力、智能体、创作与对话等多个方面。
通过高质量、多层次的综合性能力评测基准,“司南”创新了多项能力评测方法,实现了对模型真实能力的全面诊断。

总体而言,大措辞模型整体能力仍有较大提升空间;繁芜推理干系能力仍旧是大模型普遍面临的难题,海内大模型比较于GPT-4还存在差距;中文场景下海内最新的大模型已展现出独特上风,在部分维度上靠近GPT-4 Turbo的水平;此外,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

上海人工智能实验室领军科学家林达华表示,对大模型“打分”要做到客不雅观公允、办法科学、维度全面,“对模型的能力评测不仅是技能进步的度量衡,更是推动模型迭代和优化的主要驱动力。

另据先容,基于“司南”大模型评测体系,司南大模型评测伙伴操持正式启动。
未来,“司南”将与各行业的头部企业机构一起,构建各种高质量行业评测基准,致力于推进大模型在千行百业运用落地和实践。