上海AI实验室开源诗人万卷10多模态预演习语料

duote123 2025-02-03 0

AI智能摘要

AI正在生成摘要

据悉，这个语料库包含了文本数据集、图文数据集和视频数据集，总量超过2TB。
个中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。

这些数据经由细粒度洗濯、去重和代价对齐等处理，具备多元领悟、风雅处理、代价对齐和易用高效的特点。

上海 AI 实验室表示，开源发布 “诗人・万卷” 有助于降落大模型技能的门槛，推动大模型的运用和创新。
该语料数据同盟旨在通过联合多方机构打造高质量的语料数据，探索形成可持续运行的勉励机制，打造国际化、开放型的大模型语料数据生态圈。

地址：https://opendatalab.org.cn/WanJuan1.0

上海AI实验室开源诗人万卷10多模态预演习语料

开源地址：https://github.com/opendatalab/WanJuan1.0

本文系 @duote123 在 2025-02-03 原创发布至每期AI知识网，内容来自网络，如有侵犯您得权益联系（删）。
文章链接：http://www.meiqiai.cn/article/zgmawe_HYsfTGfvDbij

每期AI知识网