达摩院是海内最早投入预演习大模型的研究团队之一。2021 年 1 月,达摩院推出多模态大模型 M6,模型参数从百亿起步,后增至 10 万亿,成为环球最大的预演习模型之一。同时,针对自然措辞处理,达摩院推出了 2 万亿参数的措辞大模型 PLUG,中文预演习也逐渐朝“大模型”演进。在上述研究的根本上,达摩院更是推出了“阿里通义大模型体系”,以多模态预演习模型为底座,涵盖文本、视觉和多模态任务。
这里我着重先容下阿里通义大模型体系中的 AliceMind,它以通用预演习模型 StructBERT 为核心,包括一系列预演习措辞模型,取得了多个业界领先的技能成果,包括 2018 年 1 月在英文机器阅读理解榜单 SQuAD 首次超越人类基准,2021 年 8 月在视觉问答榜单 VQA Leaderboard 上首次超越人类基准, 2022 年 11 月在中文措辞理解榜单 CLUE 首次超越人类基准。
基于阿里通义 AliceMind,我们在各种自然措辞的下贱任务,包括理解天生、文本分类、对话问答、文档剖析和机器翻译等方面研发出了一整套的自然措辞处理技能和框架,目前正在 AI 模型社区魔搭 ModelScope 上持续进行开源开放,希望能推动 NLP 领域的研究,帮助开拓者轻松构建自己的措辞模型和 AI 运用。
分词、词性标注、命名实体识别等词法剖析任务是 NLP 中根本、且运用最广泛的任务模块,运用处景包括搜索 query 剖析、商品信息抽取、对话 NLU、文档构造化等。在预演习的范式之下,如何融入无监督、半监督、检索等多类型知识是词法剖析任务在学术界和工业界的共同热点。
分词
模型名称:BAStructBERT
体验链接:https://modelscope.cn/search?search=BAStructBERT
中文分词算法已经发展了 30 多年,从最初的基于词典的匹配方法,到后来的基于字标注的统计学习方法,再到深度学习方法,而大规模预演习措辞模型的涌现大幅度提升了中文分词的效果。
魔搭开源的分词模型在预演习阶段将边界熵、互信息等无监督统计信息融入到预演习任务中,从而提升预演习措辞模型对中文词汇边界的学习能力。该模型在分词、词性标注等中文序列标注任务取得了 SOTA 结果, 详细论文揭橥于 EMNLP2022。
为了便利开拓者利用,我们在魔搭上的分词、词性标注模型供应 Base 和 Lite 两种规模的模型,还专门供应了基于电商数据演习的电商行业分词模型。未来,我们会持续丰富行业分词、词性标注模型, 同时也会供应推理效率更高的基于浅层神经网络(LSTM、GCNN)的蒸馏模型。
命名实体识别(NER)
模型名称:RaNER
体验链接:https://modelscope.cn/search?search=RaNER
信息抽取能帮助我们从海量文本自动提取挖掘关键信息,是数字化的主要支撑技能,个中,命名实体识别(NER)是信息抽取中的主要子任务。
比如上面电商文本,模型须要合理地识别核心产品、品牌、场景、功能等关键信息。而要实现高质量的识别结果,必须融入知识。我们经由两年的技能探索,提出检索增强技能体系 RaNER,在自然措辞处理国际学术会议 ACL/EMNLP/NAACL/COLING 揭橥论文五篇,在 SemEval 2022 国际多措辞竞赛得到十项第一,得到唯一的最佳系统论文奖,同时也在 NLPCC 语音实体理解竞赛得到榜首成绩。
在魔搭社区,我们不仅供应通用的实体识别模型,还有 40 多个详细的模型,横跨 15 个不同的行业,多个中/英/小语种,及包括 base/large/lstm 模型规格,方便用户在不同行业、不同语种、同场景进行利用。
2. 文本分类任务
作为业界最威信的中文自然措辞理解榜单之一,CLUE 从文本分类、阅读理解、自然措辞推理等 9 项任务中全面考察AI模型的措辞理解能力。过去三年,该榜单吸引了浩瀚海内顶尖 NLP 团队的参与,只管榜首位置多次易主,但参评 AI 模型一贯未能超越人类成绩。
2022 年 11 月 22 日,阿里通义 AliceMind 在 4 项任务中的表现超过人类水平,同时实现了总榜均匀分的首次超越,意味着 AI 模型的中文措辞理解水平达到了新的高度。
情绪分类模型
模型名称:StructBERT 情绪分类体验链接:https://modelscope.cn/models?name=情绪分类
情绪分类须要模型对带有感情色彩的主不雅观性文本进行剖析、推理,即剖析文本所表达的态度,是方向于正面还是反面。常日来说,情绪分类的输入是一段句子或一段话,模型须要返回该段话正向/负向的情绪极性,在用户评价,不雅观点抽取,意图识别中每每起到主要浸染。
我们在魔搭上开源了 5 个情绪分类模型,包括了中英文通用版本和中文电商领域版本。以“启动的时候很大声音,然后就会听到 1.2 秒的卡察的声音,类似齿轮摩擦的声音”为例,模型会返回情绪的正负面以及其对应的概率。如下图所示:
该模型利用 StructBERT 作为预演习底座,网络了各领域的开源情绪分类数据集(共10W+)进行 Fine-tune,并结合 R-drop、label-smoothing 等策略避免模型过拟合,因此能实现较好的效果。
零样本分类
模型名称:StructBERT 零样本分类
体验链接:https://www.modelscope.cn/models/damo/nlp_structbert_zero-shot-classification_chinese-base/summary
从上图两个实例,我们可以创造 StructBERT 零样本分类模型支持候选标签任意定义,从而具备理解决各种任务的能力,比如例子1中的主题分类任务、例子 2 中的情绪剖析任务。因此,我们能在无标注数据或标注数据很少的情形进行快速启动模型,或者为待标注数据进行预分类从而提高标注效率。
技能上,StructBERT 零样本分类模型将待分类的文本和每个标签依次拼接进行自然措辞推理任务,之后整合每个标签得到的结果,从而形成文本所属的标签。该模型对文本和标签的信息都进行充分的编码和交互,并利用预演习学习到的知识,可在不该用下贱数据进行演习的情形下,按照指定的标签对文本进行分类。
3. 文本语义表示
语义匹配
模型名称:ROM
体验链接:https://modelscope.cn/models?name=CoROM&page=1
文本语义匹配模型在文本相似度、文本聚类、文本检索排序等下贱任务中发挥着重要浸染,基于预演习模型构建的召回、排序模型比拟传统的统计模型上风明显。下图展示了搜索场景中止定查询 query 和候选文档的相似度的范例样例:
文本语义匹配检索系统运用示例
达摩院自研的 ROM 模型供应文本表示、文本排序的中英文单塔、双塔模型。差异于通用的BERT预演习模型,ROM 模型在预演习任务中通过引入结合词权重的 Random Masking 方法和比拟学习任务, 提升了文本表示能力和对关键词信息的建模能力。依赖 ROM 系列模型构建的文本检索系统在 2022 年 3 月份登顶 MS MARCO Passage Ranking LeaderBoard。
ROM预演习措辞模型
自然措辞天生任务
随着 OpenAI 提出 GPT-3 超大规模天生模型,AIGC 领域也进入高速发展期,从文本天生、到图片天生乃至是视频天生。我们在魔搭社区也开源开放了多个天生模型。
1. PALM 模型https://modelscope.cn/models?name=PALM&page=1
自动天生择要
PALM 模型采取了与之前的天生模型不同的预演习办法。在海量无标签文本语料上结合了 Autoencoding 和 Autoregression 两种办法,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的天生能力。干系技能论文揭橥在 EMNLP 2020,论文揭橥时在 CNN/Daily Mail Gigaword 等数据集上实现了 SOTA。
在 PALM 根本上,我们采取多阶段多任务渐进式从易到难的演习范式,提出了 PALM 2.0 中文预演习天生模型,并将演习好的下贱场景模型和 finetune 演习能力完备开放,适用于大部分的中文天生业务场景。
2. PLUG 模型
https://modelscope.cn/models/damo/nlp_plug_text-generation_27B/summary
该模型提出时是中文社区最大规模的纯文本预演习措辞模型,集措辞理解与天生能力于一身,在措辞理解(NLU)任务上,以 80.179 分刷新了当时 CLUE 分类榜单的新记录排名第一;在措辞天生(NLG)任务上,在多项业务数据上较 SOTA 均匀提升 8% 以上。
模型采取 encoder-decoder 的双向建模办法,在大规模的中文演习数据(1T 以上)演习,因此在传统的 zero-shot 天生的表现上,无论是天生的多样性,领域的广泛程度,还是天生长文本的表现,较此前的模型均有明显的上风。
该模型的零样本天生能力较为突出,下面是一些详细展示:
小说续写
生活百科
零样本学习
3. mPLUG模型
https://modelscope.cn/search?search=mplug
在纯文今年夜模型 PLUG 的根本上,我们又推出了多模态的统一大模型 mPLUG,2021 年在视觉问答榜单 VQA Challenge 取得第一,并首次超越人类基准,详细技能论文揭橥于 EMNLP2022。
mPLUG 核心办理了多模态领悟时视觉特色序列过长导致的低效性、信息淹没的问题,提出新的跨模态领悟方法 skip-connected network。在仅用 1300 万图文数据预演习,便在 VQA、Caption 等核心多模态任务上取得同等参数规模下的 SOTA,除此之外,还可用于下贱的视频文本的理解和天生场景。
视觉问答(VQA)
图像描述(Image Captioning)
视觉定位(Visual Grounding)
图文检索(Image-text Retrieval)TRIEV
4. 中文版 GPT-3
模型链接:https://modelscope.cn/models/damo/nlp_gpt3_text-generation_13B/summary
利用入口:https://modelscope.cn/studios/damo/ai_writer/summary
由于 GPT-3 紧张支持英文,对付中文效果较差,访问利用还须要申请,因此我们推出了中文 GPT-3,免费开放,可自由访问,希望为中文社区带来更好用的中文天生大模型。
我们创新性地结合无监督数据和有监督 prompt 数据,并考虑到用户的不同 GPU 资源,演习了不同版本规模的中文GPT-3,包括base/large/1.3B/2.7B/13B/30B,以及后续即将推出的 175B。目前模型具备多种天生能力,如代码天生、小说续写、作文天生等。
代码天生
作文天生
SQL 天生
对话问答
1. SPACE 对话模型
https://modelscope.cn/models/damo/nlp_space_pretrained-dialog-model/summary
如何将人类先验知识低本钱融入到预演习模型中一贯是个难题,我们提出了一种基于半监督预演习的新演习办法,将对话领域的少量有标数据和海量无标数据一起进行预演习,从而把标注数据中蕴含的知识注入到预演习模型中去,打造了 SPACE 1/2/3 系列预演习对话模型,在 11 个国际公开对话数据集上取得了最好结果。
在魔搭社区上,我们以 SPACE 模型为基座,开源了理解、天生 fine-tuning 和意图分类、对话状态追踪和回答天生推理 pipeline,覆盖了对话系统各个核心模块,只需几行代码,就能快速上手对话系统,复现论文里的 SOTA 效果。
2. SPACE-T表格问答模型https://modelscope.cn/models/damo/nlp_convai_text2sql_pretrain_cn/summary
当代企业花费大量精力构建了数据库、数据中台等根本举动步伐,支撑 CRM、ERP、OA 等系统,但是常规的企业智能化方案中,仍须要花费大量资源,去重新构建图谱、意图、FAQ 等知识形态。如果能够利用已有的二维关系型数据库直接构建企业智能化系统,就可以节省大量本钱。
达摩院研发了 SPACE-T 表格问答模型,能够智能理解剖析表格信息,已经在阿里云智能客服等多个产品中输出,做事了多领域的客户。这次在魔搭社区上免费开源开放,能够让有须要的企业通过对接自己的数据库,定制化构建自己的表格问答应用,可具备单/多属性查询能力、单/多条件筛选能力、最值/均匀/计数等根本统计能力等,如下图所示:
技能上,该模型由亿级表格数据预演习构建,具备良好的开箱即用能力。模型在演习和推理过程中都会将表格的 Schema 信息作为输入,使模型能够理解表格信息,实现了表格知识即插即用的效果。
机器翻译
模型名称:CSANMT 连续语义增强机器翻译
体验链接:https://modelscope.cn/models?name=CSANMT&page=1&tasks=translation
达摩院长期致力于机器翻译的研究,产生了一批高质量的模型。这次我们重点开源了CSANMT连续语义增强机器翻译,这是我们最新研发的高质量神经机器翻译(NMT)模型,得到了AL 2022 精彩论文奖。
CSANMT 模型由编码器(Encoder)、解码器(Decoder)和语义编码器(Semantic Encoder)三个单元构成。语义编码器可以在连续分布式语义空间捕捉源措辞与目标措辞的相似性,从而更加充分、更加高效地利用双语演习数据,不仅可以显著提升了翻译质量,而且能够有效改进了模型的泛化能力和鲁棒性。
首批开源的 CSANMT 模型包括中英、英中、英法 、法英、英西、西英等语向的模型,后续还将开源覆盖欧洲、东亚、东南亚等区域紧张语种的 CSANMT 翻译模型。我们将对模型进行持续迭代优化,确保性能和体验处于业内领先水平。
结语
自然措辞处理代表着AI从感知智能走向认知智能,干系研究风起云涌,随着预演习新范式的推动,底座模型越来越“通识”,下贱模型场景越来越丰富,落地效果也更加完善,各种运用朝阳东升。
魔搭社区不仅供应了达摩院自己研发的 100 多个 NLP 模型,也接入了业界一流科研机构的浩瀚优质模型,比如澜舟科技的孟子系列轻量化预演习措辞模型,智谱 AI 的 mGLM 多措辞模型等...欢迎大家基于这些优质模型,搭建出自己的创意运用,更希望自然措辞处理迎来一个全新的时期。