测评选取了较为有名的9款大模型运用程序(或其网页版),分别稽核了其文本天生能力、事实核查与代价不雅观判断能力、媒体信息检索能力、翻译能力以及长文本总结能力,旨在评估不同大模型助手针对媒体行业实际事情场景的能力表现,并形成终极排名。

在总体得分上,通义千问、腾讯元宝、讯飞星火夺得前三名,紧张是这三个模型在这次评测的五大维度上均没有明显短板。
个中,通义千问在事实核查与代价不雅观判断能力、长文本能力上均排名榜首,讯飞星火则在翻译能力上排名第一,且综合能力最强。

横向比拟大模型五个维度的均匀得分水平,翻译能力得分6.42,排名第一。
事实核查与代价不雅观判断能力以及媒体信息检索能力得分6.3,并列第二。
第四是文本天生能力,得分6.08,末了是长文本能力,得分4.65。

由此可见,媒体从业者对付利用大模型进行翻译事情较为满意,而通过大模型联网总结热点事宜也较为准确,大模型的代价不雅观未见明显问题。
与新闻写作干系的文本天生则处于“可用”状态。
总体来看,上述四项维度的功能均处于“及格线”以上,根据测评职员的反馈,大模型天生的新闻稿虽然可用但比较人类仍稍逊一筹,比较之下,大模型的翻译能力、检索总结新闻能力以及其代价不雅观判断能力已经得到了部分测评职员的认可。

AI大年夜模型测评申报长文本和捞针成大年夜模型痛点

此外,对付大模型从长文本中“大海捞针”找关键点的能力,大部分大模型仍旧无法胜任。
特殊是给出1-999个顺序排列的数字,探求个中两个顺序颠倒的数字这一测试,9款大模型除了通义千问给出了2个答案(一对一错)外,别的8款大模型“全军覆没”,解释大模型仍有缺陷之处。

编辑 王进雨

校正 杨利