机器之心编辑部
AI 作画在全天下越来越盛行。近日,百度发布知识增强跨模态大模型—— ERNIE-ViLG 2.0,在 AI 作画领域取得新打破。该模型采取基于知识增强算法的稠浊降噪专家建模,是环球首个知识增强的 AI 作画大模型,也是目前环球参数规模最大的 AI 作画大模型。
据理解,ERNIE-ViLG 2.0 在文本天生图像公开威信评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前该领域的天下最好效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著上风。
论文链接:https://arxiv.org/pdf/2210.15257.pdf体验链接:https://wenxin.baidu.com/ernie-vilg文心 ERNIE-ViLG 2.0: 最强中文 AI 作画大模型
AIGC (AI-Generated Content) 是继 UGC、PGC 之后,利用 AI 技能自动天生内容的新型生产办法。AI 作画作为 AIGC 主要方向之一,蕴含了极大的家当运用代价。比较于人类创作者,AI 作画展现出了创作本钱低、速率快且易于批量化生产的巨大上风。
近一年来,该领域迅猛发展,国际科技巨子和初创企业争相涌入,海内也涌现了浩瀚 AI 作画产品,这些产品背后紧张利用基于扩散天生算法的 DALL-E 2 和 Stable Diffusion 等国外模型。目前,这类根本模型在海内尚处空缺,ERNIE-ViLG 2.0 是海内首个在该方向取得打破的事情。
当前 AI 作画技能在图像细节纹理的流畅度、清晰度、语义的可控性等方面还存在诸多问题。基于此,百度提出了基于知识增强的稠浊降噪专家(Mixture-of-Denoising-Experts,MoDE)建模的跨模态大模型 ERNIE-ViLG 2.0,在演习过程中,通过引入视觉知识和措辞知识,提升模型跨模态语义理解能力与可控天生能力;在扩散降噪过程中,通过稠浊专家网络建模,增强模型建模能力,提升图像的天生质量。
我们先来欣赏下 ERNIE-ViLG 2.0 根据文本描述天生图像的一些示例:
ERNIE-ViLG 2.0 创作的图像示例:令人震荡的科幻插图精品,神秘宇宙星辰背景中涌现一只巨大的星球, 大场景,无比详细,明暗比拟,32k
ERNIE-ViLG 2.0 创作的图像示例:凤凰周身火焰,多彩的祥云,明月,cg 感
ERNIE-ViLG 2.0 创作的图像示例:用沙尘暴制作的令人敬畏的龙,观点艺术,二次元
ERNIE-ViLG 2.0 创作的图像示例:srudio ghibli 风格,一个巨大的圆月、超现实的超自然村落落,抽象的生物形态建筑、白色,金色
ERNIE-ViLG 2.0 可运用于工业设计、动漫设计、游戏制作、拍照艺术等场景,引发设计者创作灵感,提升内容生产的效率。通过大略的描述,模型便可以在短短几十秒内天生设计图,极大地提升了设计效率、降落商业出图的门槛。
ERNIE-ViLG 2.0 助力视觉内容 AI 大生产
文心 ERNIE-ViLG 2.0 技能揭秘
ERNIE-ViLG 2.0 通过视觉、措辞等多源知识指引扩散模型学习,强化文图天生扩散模型对付语义的精确理解,以提升天生图像的可控性和语义同等性。同时,ERNIE-ViLG 2.0 首次引入基于韶光步的稠浊降噪专家模型来提升模型建模能力,让模型在不同的天生阶段选择不同的「降噪专家」网络,从而实现更加细致的降噪任务建模,进而提升天生图像的质量。
ERNIE-ViLG 2.0 架构图
基于措辞和图像知识的知识增强算法。为提升天生图像的语义同等性和可控性,百度研究者提出将知识增强算法融入扩散模型学习,在扩散模型学习过程中,引入措辞、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素,同时针对演习数据噪声带来的演习图文样本语义偏差问题提出了文本语义补全的方法,对图文的语义同等性进行针对性学习,进而实现精准的细粒度语义掌握。
稠浊降噪专家网络。针对模型建模能力不敷,导致图像质量不足好的问题,百度研究者创造,扩散模型的降噪过程中不同阶段对降噪网络的能力哀求不同,初始阶段模型须要从纯随机噪声中天生图像轮廓,结尾阶段对模型的哀求变为对图像细节补全,传统方法利用同一网络建模全体降噪过程,模型须要同时知足不同阶段的建模需求。为此,百度研究者提出了针对不同阶段选择不同网络(降噪专家)进行建模的框架,有效地办理了不同阶段对模型能力哀求不一致的问题,减少降噪任务的相互关扰,提升图像天生的质量。由于每个天生阶段只选取一个专家进行天生,实现了在不增加模型预测打算量的情形下对模型建模能力的扩充。
文心 ERNIE-ViLG 2.0 刷新 MS-COCO 评测凑集最好效果
百度研究者在业内公开文本天生图像威信凑集 MS-COCO 上评测了模型效果。相较于业内的其他事情,如 DALL-E 2、Imagen、Parti 等模型,ERNIE-ViLG 2.0 取得了当前最好效果,刷新了该任务的基准( FID 指标代表了模型天生图像的逼真程度,数值越低代表模型越好)。
ERNIE-ViLG 2.0 在 MS-COCO 上的效果
除了客不雅观自动评估指标,百度研究者还采取了人工评估办法,从图像保真度和图文干系性两个维度比较了 ERNIE-ViLG 2.0 与 DALL-E 2 以及 Stable Diffusion 的效果。评测职员采取多人盲评的办法,根据评价维度选择表现更好的一方。在图文干系性和图像保真度两个维度上,ERNIE-ViLG 2.0 相对付 DALL-E 2 和 Stable Diffusion 都有较大上风。
ERNIE-ViLG 2.0 人工评估结果
百度研究者还针对 ERNIE-ViLG 2.0 中的知识增强算法和稠浊降噪专家网络做了进一步效果剖析。
个中,基于知识增强算法,ERNIE-ViLG 2.0 展现出对语义更精准的理解,天生结果更加可控,如以下示例中对颜色等物体属性实现精准掌握。
ERNIE-ViLG 2.0 与 DALL-E 2 在属性掌握方面对比示例
基于稠浊降噪专家网络,ERNIE-ViLG 2.0 在清晰度和纹理质量方面都取得了显著的提升,比拟业界其他模型天生了更加逼真的图像。
ERNIE-ViLG 2.0 清晰度比拟示例
文心 ERNIE-ViLG 2.0 更懂中国文化、图像创作能力更强
百度研究者构建了近 2 亿高质量中文图文数据对,通过基于知识增强的稠浊降噪专家建模,ERNIE-ViLG 2.0 具备了强大的中文语义理解能力。下面是 ERNIE-ViLG 2.0 结合了多种不同的风格重新绘制了中国文化干系的元素。
ERNIE-ViLG 2.0 在中国元素干系观点上创作的图像(仙鹤、京剧、青花瓷、建筑、剪纸、凤凰等中国元素)
在动漫创作方面,ERNIE-ViLG 2.0 也有显著的上风,与当下主流的 AI 绘画模型比较,展现出更加惊艳的效果,能够创作精美的动漫人物。
ERNIE-ViLG 2.0 创作动漫图像
天生创意图像是 AI 作画的主要运用之一,它能够帮助用户引发想象力、带来创作灵感。ERNIE-ViLG 2.0 能够根据笔墨描述,精准地天生现实天下没有的具有创造性的图像。
ERNIE-ViLG 2.0 天生的创意图像
文心 ERNIE-ViLG 2.0 开放做事
值得把稳的是,早在今年 8 月,ERNIE-ViLG 2.0 模型通过 API 做事办法开放公测,一经上线,便受到了国内外广大开拓者和爱好者广泛关注。个中,谈论度最高的是 ERNIE-ViLG 2.0 在中国元素和二次元干系的创作中,效果远超其他 AI 作画模型。有网友评价: 「最前辈的 AI 动画天生技能在中国」。
除此之外,ERNIE-ViLG 2.0 展现出来的图像质量、美感度也得到了国外网友比较高的评价。
开拓者和科技爱好者可以通过 ERNIE-ViLG 2.0 的 API 调用入口直接体验该模型的技能效果,并灵巧方便地集成到产品中。同时,基于 ERNIE-ViLG 2.0 大模型,百度也推出了 AI 作画产品—— AI 艺术与创意赞助平台:文心一格(yige.baidu.com),以知足更广泛人群在 AI 作画方面的需求。
结语
天生式 AI 技能是最近的热门话题,伴随着大量运用的落地,AI 天生笔墨、图片、视频等内容也逐渐走入了人们的日常。ERNIE-ViLG 2.0 等 AI 作画大模型的推出,将进一步加速 AI 赞助视觉内容创作与生产时期的来临。
作为百度文心大模型「家族」主要一员,ERNIE-ViLG 2.0 也代表着百度在 AIGC 领域迈出坚实步伐,从技能自主创新和加速家当运用方面持续推动中国 AI 发展。