日前,威信研究机构弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布《2023年中国大模型行研能力评测报告》。评测结果显示,商汤措辞大模型“日日新·商量”(简称:商汤商量)以总分7.73(满分10分)斩获总榜第一,并在报告撰写能力(八大模块)、模型根本能力(行研根本能力)两个子榜位居第一。
为全面理解中国大模型在行业研究领域的运用表现,沙利文调动了百人规模的剖析师,从研究报告撰写能力、模型根本能力、行业综合理解能力三大核心板块对大模型进行了多维度的综合评估。
图:大模型行业能力评测方法:报告撰写、模型根本能力、行业理解
(来源:沙利文)
经由模型能力评测,沙利文报告指出,商汤商量作为中国最早推向市场的千亿参数大措辞模型之一,在报告撰写能力、模型根本能力等方面均领先其他大模型,不但可以处理各种文本和信息,在帮忙行业剖析师事情时,还可胜任随身综合知识库、高效文本编辑器、数理打算器和大略易用的编程助手等多个角色。
行研领域内容创作“高门槛”,商汤商量三项“第一”解放行业生产力
内容天生和创作能力是目前大模型最火热的运用处景,并且也是能够直接表示大模型生产力水平的能力。从大模型运用处景来看,无论是知识管理、市场营销、客户做事,还是员工自身日常事情,都须要大模型具有精良的内容天生和创作能力。Gartner 预测,到2025年,企业30%的营销信息将会由大模型帮忙天生。
行业研究是通过剖析特定行业的定义、竞争格局、市场规模等关键方面,产出深刻洞察和不雅观点,涵盖从宏不雅观的家当层到微不雅观的产品层,各层级决定着相应的研究方法,研究方法论席卷外部宏不雅观成分和内部微不雅观细节的全面剖析。其行业分外性、繁芜性、严谨性对大模型的内容天生和创作能力提出了多维度的高哀求。
同时,目前行业研究事情依然存在诸多痛点。从根本数据网络到深度剖析输出,传统行业研究的流程面临着工具改造滞后、团队知识难以传承、信息溯源繁芜性以及研报质量掌握的重大寻衅。
结合大模型技能,可以帮忙剖析师战胜传统行业研究的核心制约成分,通过AI专家访谈、AI内容天生、AI笔墨校正、AI资料检索等多方面赋能行研行业,显著提升研究的精度和效率,同时加速剖析师的专业发展,进一步推动行研数字化进程。
图:大模型赋能行业研究(来源:沙利文)
商汤商量除了在总榜第一,在报告撰写能力的子榜单同样位居第一。此前,沙利文及头豹行企研究的8-D方法论,是一种全面系统的研究方法,包含了八大关键模块,用于对行业进行深入剖析。
在这一框架下,百名剖析师研磨提炼一套高效的8D模块提问方法,以对模型能力进行评测,商汤商量正是经由了这套方法的考验。沙利文认为,根据大模型报告撰写能力综合热力矩阵图可以看出商汤商量是综合能力最强的模型, 且在各个板块的表现稳定处在前列位置,表示出均衡的能力。
图:大模型的撰写能力评测结果 – 热力矩阵图(来源:沙利文)
其余,在模型根本能力(行研根本能力)子榜中,商汤商量再次夺魁,并在语境转换、笔墨天生、知识储备等模块排名第一,能够为行业研究供应深度剖析和有代价的见地。剖析师认为,商汤商量的产出内容能够避免利用非专业词汇,同时确保天生内容的完全性和专业性,从而为用户供应符合哀求且令人阅读体验感满意的研究产出物。
图:大模型的模型根本能力(行研根本能力)评测结果 – 热力矩阵图
(来源:沙利文)
基于AI“三要素”全面深耕模型能力,商汤科技提速天生式AI运用落地
商汤商量取得精良的评测结果,离不开对基模型能力的长期耕耘和提升。首先,依托丰沛AI算力的SenseCore 商汤AI大装置,通过软件、硬件、工程化系统以做事大模型迭代为目标的研发合营,保障了大模型的高频迭代,以及不断精髓精辟的演习配方。
其次,商汤在积累巨大的原始语料数据的根本上,通过高精度的分类器和人工风雅化洗濯的办法,提炼出高质量的数据,进而演习性能强大、代价不雅观对齐的大模型。现在,商汤的高质量演习数据的每个月产出量,已经达到2万亿Tokens。
在此之前,新华社研究院发布《人工智能大模型体验报告3.0》,报告显示,商汤“商量SenseChat”在定量实测的情商维度上,位居全部10款大模型第一,并在定性评估中入选大模型市场未来领袖象限。借助丰硕、领先的算力和数据资源,商汤不断优化迭代大模型能力,提升生产力水平,未来将进一步引领行业研究进入一个效率更高和质量更优的新产出范式,以促进数字行业研究的创新和变革。
放眼未来,商汤科技将持续创造领先的大模型落地和天生式AI运用生态,向通用人工智能(AGI)持续迭代,用我们的创新力为AGI时期的到来做出努力。