过去一段韶光以来,AIGC图片天生技能快速发展,在电商以及内容创作领域展现出来极高的运用代价。
除了根本的基于prompt的文生图能力,社区还呈现出来更多的扩展技能。
比如Controlnet技能能利用线稿信息、深度信息等对天生图片的空间构造进行掌握,还有IP-Adapter技能能够基于参考图片的内容对天生图片进行风格迁移。
这些技能都便利了用户对AIGC的利用。

本文将先容如何利用AIGC天生多张风格同等的图片的技能。
对此,本文挑选了两篇比较有代表性的方法:Style Aligned方法和Story Diffusion方法,本文会对这两种方法的事理和技能细节进行先容。
然后,我们展示了干系方法运用在家装领域上的一些效果,并剖析了目前效果的优点与不敷。
末了我们对本文内容进行了总结,并谈论了该类方法未来的运用前景。

技能先容

AIGC生成风格统一图片的方法介绍

我们在这里大略先容一下天生多张风格同等图片的AIGC技能,包括Style Aligned方法以及Story Diffusion方法。

▐Style Aligned 方法

Style Aligned方法的目标是天生符合prompt的一批风格同等的图片。
想要实现该目标,最大略直接的方法是在prompt中利用相同的风格描述词,但是由于在天生过程中,图片之间对彼此的内容缺少理解,导致末了风格每每很难达成同等。

Style Aligned方法的核心思想是在天生过程中设计共享self-attention机制,从而实现同一批图片彼此内容的互换。
详细来说,Style Aligned在天生一批图片时,会让每一张图片参考该图片本身以及该批图片中第一张图片的特色进行共享self-attention的打算,实现同一批图片在特色上的对齐,从而天生多张风格同等的图片。

▐Story Diffusion 方法

Story Diffusion方法包含两个阶段,在第一阶段中,提出了Consistent Self-Attention, 一种training-free 的办法,来天生主题同等性的一系列图像。
在第二阶段中,利用之前天生的同等性图片,作者构建了一个transformer block,它在语义隐空间预测中间帧,并用视频天生模型来把语义隐空间的向量重新解码成视频。

本文接下来对第一阶段的一些细节进行讲解。
对付输入的一段长prompt,首先会将其按场景分为多段prompt,每段prompt分别对应天生一张图片。
为了构成连环画或视频,这些图片的主体须要保持同等,作者提出了Consistent Self-Attention方法来实现这一目标。
Consistent Self-Attention 对付每一帧在打算Self-Attention 的时候,会随机采样batch 内其他帧的内容,作为Key 和 Value 的一部分,实现了batch 内图像的细节交互。

利用Consistent Self-Attention之后,人脸可以担保特殊好的保持效果,结合prompt的赞助掌握,也能较好的保持衣物细节。
由于保持人物id的性子,这一部分不仅可以作为视频关键帧,也可以用作漫画天生。

实测效果

我们在家装场景中对Style Aligned方法的效果进行了测试。
我们将一件家具的多张视角图片作为一个batch输入到Style Aligned中,然后对这些家具添补背景。
Style Aligned的输出如下图所示,可以看到同一批图片中,不同视角下的家具在整体装修上的风格是可以保持同等的。
但是,进一步不雅观察,这些图片在空间构造和物体细节上还是无法精准的保持同等的,这可以作为未来研究的一个方向。

结语

本文先容了两种天生多张风格同等图片的AIGC技能,即Style Aligned方法和Story Diffusion方法。
Style Aligned方法通过共享self-attention机制实现图片间特色对齐,而Story Diffusion方法则利用Consistent Self-Attention在语义隐空间实现主题同等性。
实验结果显示,这些方法能够较好地保持同批图片的整体风格同等性,但在保持空间构造和细节方面的同等性仍有提升空间。
总的来说,这些技能为AIGC天生连贯性图像序列供应了有益探索,对付视频/漫画等运用处景具有主要意义。

参考资料

[1] Amir Hertz, Andrey Voynov, Shlomi Fruchter and Daniel Cohen-Or. Style Aligned Image Generation via Shared Attention. In CVPR, 2024.

[2] Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng and Qibin Hou. StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation. arXiv preprint arXiv:2405.01434, 2024.

团队先容

我们是淘天集团-场景智能技能团队,一支专注于通过AI和3D技能驱动商业创新的技能团队, 依托大淘宝丰富的业务形态和海量的用户、数据, 致力于为消费者供应创新的场景化导购体验, 为商家供应高效的场景化内容创尴尬刁难象, 为淘宝打造环绕家的场景的第一消费入口。
我们不断探索并实践新的技能, 通过持续的技能创新和打破,创新用户导购体验, 提升商家内容生产力, 让用户享受更好的消费体验, 让商家更高效、低成本地经营。