据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。
个中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。

这些数据经由细粒度洗濯、去重和代价对齐等处理,具备多元领悟、风雅处理、代价对齐和易用高效的特点。

上海 AI 实验室表示,开源发布 “诗人・万卷” 有助于降落大模型技能的门槛,推动大模型的运用和创新。
该语料数据同盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的勉励机制,打造国际化、开放型的大模型语料数据生态圈。

地址:https://opendatalab.org.cn/WanJuan1.0

上海AI实验室开源诗人万卷10多模态预演习语料

开源地址:https://github.com/opendatalab/WanJuan1.0