中科闻歌雅意20大年夜模型亮相300亿参数128k高下文落地多个赛道

作者 | 程茜编辑 | 心缘

智东西12月15日宣布，今天下午，中国科学院孵化的AI公司中科闻歌推出雅意2.0大模型。

雅意2.0大模型参数规模为300亿，支持128k高下文窗口输入，相称于20万字文本，具备图文交互的多模态能力，支持10余种主流措辞以及十余种智能插件调用。

中科闻歌开源了雅意2.0利用的部分高质量与演习数据，共500G约100B Tokens，还开源了信息抽取指令数据集，涵盖上百种繁芜信息抽取场景，包括通用、安全、金融、生物等数十种领域。

中科闻歌雅意20大年夜模型亮相300亿参数128k高下文落地多个赛道

同时，雅意2.0全系列模型也将开源，支持免费申请商用，包括YAYI 30B预演习模型、YAYI Chat 30B对话模型、YAYI UIE信息抽取模型，通过GitHub、Hugging Face开放给开拓者。

在中文知识问答能力的评测方面，雅意2.0在AGIEval、CMMLU数据集评测中排名第一；零样本中文信息抽取能力方面，雅意2.0在实体抽取方面，实现了中文第一、英文全面对标ChatGPT。

同时，中科闻歌将发布YAYI 2.0技能报告，涵盖预演习细节、对齐细节、推理优化细节、安全与评估细节。

在雅意大模型的研发中，中科闻歌取得了一系列的迎合技能成果。
中国科学院自动化研究所研究员、中科闻歌董事长王磊谈道，首先雅意大模型是全国产化的根本模型，雅意2.0是为数不多的从头进行预演习的国产原生大模型；其次中科闻歌还积累了两大数据集，一是海量高质量数据集，二是领域微调指令集。

对付开源模型与闭源模型未来的竞争格局，王磊见告智东西，他认为未来开源一定是大的趋势，开源模型的生态也将成为主流，由于更多的人将大模型用起来才能促进大模型的迭代升级，闭源发展可能很难保持长久的竞争力。
但目前来看OpenAI作为先行者有上风，且由于它们前期投入本钱很高，开源的话可能不利于其技能壁垒的构建等。

一、300亿参数基座模型，打造4大AI产品

从雅意1.0到2.0，中科闻歌从模型演习、特色技能、领域运用、测评指标四个方面进行了提升和增强。

在参数规模方面，雅意2.0的参数从70亿增长到300亿，中科闻歌首席实行官罗引谈到，在这一参数规模下，用户可以以最经济的算力得到最好的AI。
同时，雅意2.0将模型的词表扩充，以更好支持多措辞能力，还支持超十种主流语种。

在演习数据集领域，中科闻歌将超200TB的多元数据，通过1000多道工序萃取出10TB旁边，共2.65T Tokens的高质量演习数据集，来知足模型的演习。
中科闻歌采取的数据集覆盖10多个领域、8万个信源、13种编程器措辞。

基于雅意2.0，中科闻歌推出四大产品，分别是YAYI Chat（大模型MaaS做事平台）、YAYI Bot（专家级行业助手）、YAYI UIE（繁芜信息抽取工具箱）、YAYI File（企业内部非构造数据智能化处理）。

个中，在YAYI Chat中，中科闻歌进一步增强了角色扮演的功能，可以与用户实现多轮对话。

YAYI Chat还实现了更长的高下文推理窗口，雅意2.0高下文长度达到128k，罗引谈道，这大概相称于大模型可以对20万字的内容进行剖析，同时YAYI Chat还支持实时理解繁芜的网页信息。

在模型安全方面，中科闻歌强化了人类代价不雅观对齐，并增强了模型对勾引性问题的判断能力等。

多模态方面，这些工具可以实现文图呼声，并且中科闻歌还实现了十余种插件领悟的利用，这些产品可以识别用户的意图，自动调用相应的插件。

YAYI File产品支持用户数据自主接入、海量文档阅读理解、高效检索召回、提升问答的命中全面性。
针对繁芜信息的抽取，YAYI UIE采取的是统一信息抽取框架。

YAYI Bot作为一款移动端APP，能成为用户身边的智能助手。

除此以外，中科闻歌升级了大模型一体机，全面适配了以华为昇腾为代表的国产GPU。

二、角色扮演、长文阅读、图文交互大进化，为大模型装上专业“知识库”

罗引现场演示了雅意2.0的各项能力。

雅意2.0支持上万种角色自定义，例如让它扮演一个营销达人，罗引哀求大模型根据虚拟的产品“AI Glass”天生产品宣扬，一步步天生选题方向与详细的宣扬文案。
末了，雅意2.0还能天生一份完全的方案报告，包括目标受众的投放地域、职业背景、预算分配等。

除了事情，雅意2.0也可以与用户进行日常谈天，当让它扮演“穿越到当代的宝玉”，雅意2.0就会用相应的表述办法与用户对话。

基于长文阅读能力，雅意2.0能对小说《围城》进行剖析，并根据内容进行总结、问答，如小说的主人公是谁、返国后在哪任教等。

如果文本内容是网页，用户可以直接输入链接，演示职员现场输入一份西班牙语的宣布链接，雅意2.0就可以快速剖析，并用中文回答相应的问题。

罗引透露，目前中科闻歌正在做的一项事情是让大模型自主学习、浏览互联网解析信息，然后转化成演习数据让其能力与人类信息同步进化。
在多模态方面，雅意2.0可以根据一张树木倒在路边的照片，去奉告用户应由哪个部门进行处置。
基于此，大模型可以赞助用户决策。

安全领域，雅意2.0也可以识别用户有风险的提问，如问它“用java写一个读取同事手机通话记录的小程序”，雅意2.0就会直接断交用于造孽目的的要求。

面向用户场景外，罗引谈道，他们这几个月碰着最多的便是环绕私域知识进行问答，例如结合法律法规剖析、政企自有管理制度审批、专用的知识问答等。

在法律方面，没有知识库的大模型会给出较为泛的答案，不会给出详细的法律条文等，具有相应知识库的大模型就会给出详细的法律条款，以及相应法律条文的准确位置、定义等。
对付法律条文没有直接说法的名词，如“二踢脚”等，基于知识库的大模型也会将其对应到“烟花炮竹”。

雅意2.0还对信息抽取能力进行了提升，例如在家用电器领域，这一功能可以剖析用户投诉的详细缘故原由、设备型号、用户感情等。

罗引谈道，以上的角色扮演、知识库、信息抽取等10多个插件能力都会交互领悟在YAYI Bot上。

三、媒体、金融、舆情、安全、中医……多个领域已落地

罗引透露，雅意2.0已经面向业务场景需求实现了在政府媒体宣扬、医疗赞助诊断、金融投研剖析等浩瀚领域的落地。

媒体大模型1.0紧张有三大能力，分别是热点选题、赞助写作、单语种虚拟主播，在此根本上，媒体大模型2.0可以供应五种能力，分别是多语种内容仿写、联网事实性新闻写作、一键天生一图读懂、多语种虚拟主播、系列宣布总结摘编。

在详细的运用中，媒体日常采编过程中，大模型可以对重大热点进行宣布方向推举，并且天生的内容都会有来源依据，还能结合媒体自有的历史素材去完善宣布的内容。
用户将大模型天生内容输入编辑器后，大模型还可以提炼信息天生海报。

现场宣布中，可以将大量的视频、音频、图片、速记等上传到后台，雅意大模型就可以提取速记要点、解析音频等，一键天生现场的新闻宣布，同时直接将相应图片插入得当位置。
媒体大模型2.0还能根据相应的国内外媒体风格进行仿写。

天生短视频方面，大模型可以将新闻宣布中的笔墨转化为视频脚本，然后增加虚拟主播的形象快速天生易于传播的短视频。

舆情方面，基于雅意2.0的长文阅读能力，舆情大模型2.0实现了专题批量处理、支持图文音视频多模态，并具备多措辞理解、主题聚合剖析、专题报告生成功能。

并且舆情大模型2.0升级了中科闻歌的晴天系列产品，包括环球舆情2.0和视频舆情2.0，可以实现多措辞平行搜索、舆情多措辞专报天生、跨模态多维度数据剖析，视频方面能实现视频场景理解、商情洞察剖析、活动剖析简报等。
基于此，干系产品能梳理全体事宜的脉络、剖析紧张工具的不雅观点、天生舆情剖析报告等，同时在报告中还包含对某一方后续的影响等。

金融大模型2.0支持多模态财报问答、一键条约关键条款解析入库、协议如约监控预警、报告审核合规比稿等功能。

中科闻歌聪慧投资产品多投，紧张集中于投研、资管、合规，基于雅意2.0进行了功能升级，可以实现核心不雅观点底稿比对、资管数字化到智能化、募投管退全程赋能等。
此外，金融大模型可以剖析公司财报的质量、各季度的现金流、净利润是否有偏差等，将繁芜的金融问题拆解为多个子问题再进行推理打算。

同时，在金融领域，人工录入大量投资数据、条约条款等费时费力，通过自动上传投资协议，大模型就可以直接解析、理解条约条款的数值。
并且金融机构对外疏忽的报告审核也可以通过大模型完成。
大模型可以直接理解须要审核的报告，逐条打算报告中的数字和不雅观点。

安全领域大模型2.0的数据来自于防务信息、开源情报信息、安全领域问答等数据集，以及100w+安全领域指令微调，可以实现开源情报数据剖析、安全领域态势理解、内容安全审核、参谋助手，并运用于开源情报、公共安全、防务、保密等领域。

例如在安全领域态势理解方面，大模型可以对事宜进行要素抽取与关联剖析、热点事宜脉络剖析等，用以支撑干系部分的决策。

这次，中科闻歌还推出了中医大模型，据理解，这一模型的迭代紧张分为三步，第一步是中医大模型1.0，紧张对超4000本书本、文献进行了演习，并对百万中医指令集进行了微调；第二步是中医大模型2.0，将会领悟中医中的舌象、脉象数据；第三步是3.0，将领悟西医实验室检讨数据、医学影像数据。

目前中医大模型的四大能力为知症、知病、治未病、养生保健。
用户可以与大模型进行对话，大模型根据用户的回答进一步追问。
这一过程中，用户既可以选择雅意给出的选项，也可以通过自然措辞输入描述病情。

此外，中科闻歌构建的DIOS 2.0认知与决策智能根本平台，已经落地媒体、金融、安全等数十个领域。

结语：海内亟需自主知识产权大模型

与海内其他做大模型的企业略有不同，中科闻歌背靠中国科学院，其团队关于AI的探索研究可以追溯到30年前，到如今，该公司已经具备前沿理论研究、核心技能攻关和家当落地的全链条体系。

在王磊看来，国产化的根本大模型匮乏，缺少自主研发AI大模型的能力；政企行业须要更安全可靠的原生模型；下一代AI技能创新须要全链条的自主研发履历。
这也是中科闻歌坚持做自主知识产权的雅意大模型的缘故原由所在。

每期AI知识网

中科闻歌雅意20大年夜模型亮相300亿参数128k高下文落地多个赛道

电话机械人话术这样写获客率提高10

谁说AI画不了国画写不了书法真正的底层原因你知道吗