预演习数据的质量对大模型整体性能至关主要。
当前,CommonCrawl(CC)数据集因其规模大、跨度广而成为国际主流大模型演习数据的主要来源。
与此同时,其原始数据格式繁芜、数据质量低等问题,或将导致模型演习效率低,乃至可能引发代价不雅观对齐等方面的隐患。

中国科研职员通过原创的数据洗濯技能,从CC数据库中抽取约1300亿份原始数据文档进行再处理,“萃取”出个中约1.38%的高质量内容,构建成WanJuan-CC语料库。
实验结果显示,WanJuanCC具有高文实质量、高信息密度的特点,可知足当前大模型演习对大规模高质量语料的需求。

上海AI实验室发布的书⽣·浦语2.0(InternLM2)即以WanJuan-CC为关键数据作支撑,使演习效率和措辞建模能力大幅提升,综合性能领先开源社区。

开源数据:https://opendatalab.com/OpenDataLab/WanJuanCC

上海AI实验室开源宣告高质量语料万卷CC

高质量语料驱动,效率性能双提升

近期,上海AI实验室发布了新一代大措辞模型书⽣·浦语2.0(InternLM2)。
回归措辞建模实质,InternLM2综合性能达到同量级开源模型的领先水平。
模型基座措辞建模能力的提升,则得益于预演习文实质量及信息密度的增强。
作为InternLM2的关键预演习语料,WanJuan-CC的文实质量和高信息密度经由了模型实际验证。
在InternLM2的演习过程中,在仅利用约60%的演习数据情形下,模型即得到了与此前利用1T token相同的性能表现,大幅提升演习效率,并使模型在相同语料规模上取得了更好的性能。

绿色曲线为InternLM2利用WanJuan-cc作为预演习语料,在不同数据规模上取得的任务性能分布,结果显示,WanJuan-CC可大幅提升模型演习效率

研究团队通过对CC原始数据进行洗濯,去除了网页代码和重复内容,同时利用分类模型剔除了广告和质量较差的信息,并通过内容同等性、语法精确性、数据噪声和信息代价等四个维度,对措辞的流畅性进行评估。
为验证数据质量,研究团队利用WanJuan-CC和RefineWeb(从CommonCrawl中抽取并构建的主流英文预演习语料)分别重新演习了参数量1B的模型,并进行评测。
结果显示,由WanJuan-CC作为演习数据的模型在多项验证中取得了更优效果。

基于WanJuan-CC演习的1B模型在Pile验证集评测效果更优,这表明由WanJuan-CC演习的模型在不同领域和各种知识上拥有更强能力

四重处理, 百里挑一“萃取”高质量数据

为从浩如烟海的CC数据库中“精选”最可靠的信息,研究团队搭建了高性能分布式数据处理根本举动步伐,通过启示式规则过滤、多层级数据去重、内容安全过滤、数据质量过滤等四个步骤,从原始数据中“萃取”出高质量数据,数据留存率仅为原数据的1.38%。

通过原创技能,对CC原始数据进行多阶段处理,得到了高信息密度的WanJuan-CC

研究团队首先从CC中抽取了约1300亿份原始数据文档,然后基于高性能数据处理事情流得到2.2T token(35.8亿个文档)安全数据,末了,根据质量排序精选出1T token(3.6亿个文档)质量最高的数据,构建成WanJuan-CC。
如以下柱状图所示,在WanJuan-CC构建过程中的每一阶段,均进行了大比例的数据去除。
对付仅占原CC数据比例2.76%的安全信息,研究职员再次“筛”掉五成低质内容,终极呈现出“百里挑一”的高质量数据。

各洗濯阶段的文档保留率和去除率(本图利用对数坐标轴)

数据质量高,模型更可靠

为推动演习更智能可靠的AI大模型,研究团队以保障数据安全性为条件,在数据处理的各环节均履行了多项安全加固方法,使WanJuan-CC成为目前开源CC语估中首个在毒性(Toxic)、色情(Porn)和个人隐私三方面同时进行了安全加固的英文语料,因而在代价对齐方面具有更高的可靠性。

与部分开源CC语料多维度比拟,在毒性、色情和个人隐私等方面,WanJuan-CC均进行了安全加固

研究职员分别对WanJuan-CC、Redpajama和Refineweb数据集进行了10万条数据的抽样,从毒性、侮辱、威吓等7个维度进行评分,以验证各数据集的信息安全性。
结果显示,WanJuan-CC在各维度上的表示出最高安全性。

WanJuan-CC与其他开源英文CC语料安全性比拟

高质量、多模态、宽领域的数据已成为支持当古人工智能大模型发展的主要基石。
WanJuan-CC的紧张构建团队——OpenDataLab致力于培植面向人工智能开拓者的超大规模、高质量、多模态开放数据做事平台,目前已汇聚高质量多模态数据集超6500个,涵盖大模型研发运用所需的各种语料数据。
雷峰网雷峰网雷峰网

下载更多开源语料,请登录大模型语料数据同盟开源数据做事指定平台:

https://opendatalab.com