Yi 系列模型是 01.AI 从零演习的下一代开源大措辞模型。
https://arxiv.org/pdf/2403.04652.pdf
Yi 系列模型是一个双语措辞模型,在 3T 多措辞语料库上演习而成,是环球最强大的大措辞模型之一。Yi 系列模型在措辞认知、知识推理、阅读理解等方面表现精良。
开源地址:https://github.com/01-ai/Yi
01.AI开拓的Yi模型家族,这是一系列展示出多维能力的自然措辞和多模态模型。Yi模型家族基于6B(60亿参数)和34B(340亿参数)预演习措辞模型,并扩展到谈天模型、长高下文模型、深度扩展模型和视觉-措辞模型。这些模型在多个基准测试上表现出色,如MMLU,并且在AlpacaEval和Chatbot Arena等紧张评估平台上的谈天模型也得到了高人类偏好率。
依托于可扩展的超级打算根本举动步伐和经典的 Transformer 架构,Yi 模型的性能紧张归功于我们数据工程带来的高质量数据。在预演习过程中,我们通过级联数据去重和质量过滤流程构建了包含 3.1 万亿个词条的英语和中文语料库。为了微调模型,我们经由多次迭代打磨了一个小型(少于 1 万个)指令数据集,确保每一条数据都经由机器学习工程师的直接验证。针对视觉措辞模型,我们将谈天措辞模型与视觉 Transformer 编码器结合起来演习,使视觉表征与措辞模型的语义空间保持同等。
进一步通过轻量级持续预演习将高下文长度扩展到 20 万词条,并展示了强大的针在草堆信息检索性能。实验表明,通过持续预演习增加预演习检讨点的深度可以进一步提升性能。我们相信,凭借当前的研究成果,利用经由彻底优化的数据连续扩展模型参数将带来性能更加强大的前沿模型。
预演习 (Pretraining)
先容Yi模型的预演习过程,包括数据洗濯、标记化和模型架构。特殊强调了数据质量的主要性,通过级联数据去重和质量过滤管道来构建3.1万亿个高质量的英文和中文语料库。
数据稠浊 (Data Mixture)
Yi模型利用了3.1万亿个高质量的双语(英语和中文)语料库,这些数据来自不同的来源,包括Common Crawl网络爬虫数据。
数据洗濯 (Data Cleaning)
采取了级联数据洗濯策略,包括基于措辞、启示式文本特色、困惑度、语义、主题和安全性的过滤,以及基于段落、MinHash和精确匹配的去重过程。
利用了启示式规则过滤器来移除低质量文本,例如基于URL、域名、单词黑名单和乱码文本的过滤。
运用了学习型过滤器来处理超出标准启示式规则能力的细微情形,特殊是针对从Common Crawl提取的中文内容,这些内容可能包含不适当的内容,如色情和赌钱。
标记化 (Tokenization)
利用了字节对编码(BPE)实现在SentencePiece框架中,将预演习数据进行标记化。词汇大小设置为64,000,以平衡打算效率和词义理解。
微调 (Finetuning)
谈论了微调方法,强调了数据质量优于数量的原则。通过多次迭代和用户反馈,精心构建了小于10K的指令数据集,以提高模型的性能和用户偏好。
根本举动步伐 (Infrastructure)
描述了支持Yi模型系列从预演习到微调再到做事的全栈根本举动步伐。包括跨云弹性任务调度、自动故障规复、资源分配以及支持不同分布式演习后真个层次调度框架。
安全性 (Safety)
提出了RAISE(负任务的人工智能安全引擎),确保模型在预演习、对齐和支配阶段的安全性。包括去除个人身份信息、减少不当内容以及增强模型对恶意利用的抵抗力。
评估 (Evaluations)
展示了Yi模型在多个评估平台上的性能,包括根本模型在MMLU等标准基准测试上的表现,以及谈天模型在AlpacaEval和Chatbot Arena等平台上的用户偏好率。
能力扩展 (Capability Extension)
谈论了如何通过持续预演习和微调来扩展Yi模型的能力,包括将高下文长度扩展到200K,以及通过集成视觉编码器来适应视觉-措辞任务。