日前,威信研究机构弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布《2024年中国大模型行研能力年中评测》,结果显示:在16个主流大模型中,商汤“日日新”以8.923分(总分)再度位列榜首,并在报告撰写和根本能力两大子榜中排名第一。

相较于《2023年中国大模型行研能力评测报告》,这次参与评测的主流大模型从12家增至16家,在保持三大能力维度(报告撰写、行业理解、根本能力)的根本上,测试题目从1800道增至3540道,商汤“日日新“在蝉联第一的同时,总分从7.73提升到8.923。

20+资深剖析师参与打分:日常利用大模型办公,还是日日新撰写报告最好用

值得把稳的是,本次大模型行研能力测试覆盖了3540道题目,由20位资深研究剖析师和10个中外裁判大模型共同参与评测。

多位资深分析师实测16家大年夜模型用AI写研报照样商汤日日新最好用

这些剖析师大多拥有超过16个月的利用大模型进行日常办公的履历,在评测中,报告撰写这一核心能力维度就覆盖了20篇不同行业报告撰写,涵盖剖析师长期跟踪报告问题累积超3000道题。

在“报告撰写”能力(覆盖8个子能力模块)中,商汤“日日新”排名第一,充分表示办公实际运用处景中的领先性。

沙利文及头豹行企研究的8-D模块化大模型提问框架已转化为一个评估工具,通过对十六个模型的定向提问,深入考验并评估模型报告的撰写质量与有效性。

图:大模型报告撰写能力评测总榜TOP5(来源:沙利文)

沙利文认为,位列第一的商汤“日日新”在研究报告内容质量综合产出精良,大模型具备从根本信息中提炼出深层逻辑关系的强大能力。

个中,商汤“日日新”在逻辑推理层的三个细分维度中表现最为突出:

家当链剖析:作为高阶难度撰写模块,得益于其精良的知识储备能力以及逻辑推理归纳能力,“日日新”在这一模块表现精良;

特色剖析:这一模块寻衅在于综合处理海量数据、提炼具有深度的代表性见地以及展现独创性,“日日新”在此模块中表现精良;

竞争格局:这是最具寻衅性的模块之一,寻衅在于准确筛选行业参与者,并归纳推演市场竞争态势的形成缘故原由及未来趋势,“日日新”在企业筛选以及未来变革推演能力较强。

商汤“日日新”加持根本能力,为千行百业研究注入“新质生产力”

同时,大模型精良的根本能力能够显著提升剖析师在研报撰写过程中利用模型的流畅性,并增加其利用粘性。

在“行研根本”能力板块的表现中,商汤“日日新”综合表现第一。

图:大模型根本能力评测总榜TOP5(来源:沙利文)

这得益于商汤“日日新”大模型体系的持续迭代和能力维度的长期耕耘。
自去年4月首次发布,商汤“日日新SenseNova”大模型体系已正式推出多个大版本迭代。
在今年7月“日日新5.5”体系迎来多项升级,综合性能较“日日新5.0”均匀提升30%,在数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。

通过不断地实践与落地,商汤“日日新”也对各行各业中进行了深刻的行业积累,这为其供应了行业深度洞察与理解能力。
在沙利文报告中,商汤“日日新”在“行业理解”能力也表现突出。

商汤“日日新”在面对各行业下的趋势研判、信息归纳和市场认知方面表现了较强的能力,个中在电商零售业、电信业、泛娱乐业、房地家当、教诲业、运输业、制造业这些关键领域排名第一。

办公与内容创作是当下大模型最火热的运用处景,并且也是能够直接表示大模型生产力水平的能力,商汤“日日新”这次蝉联第一,正是为行研领域供应“新质生产力”。
未来,商汤科技还将不断把大模型的能力转换为在各行各业的实际落地,推动天生式AI的规模化运用。