在这个领域,一个关键的寻衅是开拓自回归(AR)模型,使其能够根据文本描述天生逼真的图像
只管扩散模型在这一领域取得了显著进展,但自回归模型的表现却相对滞后,尤其是在图像质量、分辨率灵巧性以及处理各种视觉任务的能力方面。
这一差距匆匆使研究职员探求创新方法,以提升 AR 模型的能力。

当前,文本转图像天生的领域大多被扩散模型霸占,这些模型在天生高质量、视觉吸引力十足的图像方面表现精良。
然而,像 LlamaGen 和 Parti 这样的 AR 模型在这一方面却显得力不从心。
它们每每依赖繁芜的编码 - 解码架构,并且常日只能天生固定分辨率的图像。
这种限定大大降落了它们在天生多样化、高分辨率输出方面的灵巧性和有效性。

为了冲破这一瓶颈,上海 AI 实验室和喷鼻香港中文大学的研究职员推出了 Lumina-mGPT,这是一种前辈的 AR 模型,旨在战胜这些限定。
Lumina-mGPT 基于解码器 - only 的变换器架构,采取了多模态天生预演习(mGPT)的方法。
该模型将视觉与措辞任务融入统一框架,目标是实现与扩散模型同等水平的逼真图像天生,同时保持 AR 方法的简便和可扩展性。

Lumina-mGPT 在增强图像天生能力方面采纳了一种详尽的方法,其核心是灵巧渐进的监督微调(FP-SFT)策略。
该策略从低分辨率逐步演习模型天生高分辨率图像,首先在较低分辨率下学习一样平常的视觉观点,然后逐步引入更繁芜的高分辨率细节。
此外,该模型还引入了一种创新的明确图像表示系统,通过引入特定的高度和宽度指示符以及行尾标记,肃清了与可变图像分辨率和纵横比干系的模糊性。

颠覆传统LuminamGPT 可以从文本中创建逼真且高分辨率的图像

在性能方面,Lumina-mGPT 在天生逼真图像方面显著超越了之前的 AR 模型。
它能够天生1024×1024像素的高分辨率图像,细节丰富,与供应的文本提示高度同等。
研究职员报告称,Lumina-mGPT 仅需1000万对图像 - 文本进行演习,远低于 LlamaGen 所需的500万对图像 - 文本。
只管数据集较小,Lumina-mGPT 在图像质量和视觉同等性方面依然超越了竞争对手。
此外,该模型支持视觉问答、密集标注和可控图像天生等多种任务,展现出其作为多模态通才的灵巧性。

其灵巧且可扩展的架构进一步增强了 Lumina-mGPT 天生多样化、高质量图像的能力。
该模型利用前辈的解码技能,如无分类器勾引(CFG),在提高天生图像质量方面发挥着重要浸染。
比如,通过调度温度和 top-k 值等参数,Lumina-mGPT 可以掌握天生图像的细节和多样性,帮助减少视觉伪影,提升整体都雅。

Lumina-mGPT 在自回归图像天生领域标志着重大的进步。
这一由上海 AI 实验室和喷鼻香港中文大学的研究职员开拓的模型,成功架起了 AR 模型与扩散模型之间的桥梁,为从文本天生逼真图像供应了强有力的新工具。
其在多模态预演习和灵巧微调方面的创新方法,展示了 AR 模型潜在的变革能力,预示着未来将有更加繁芜和多才多艺的 AI 系统出身。

项目地址:https://top.aibase.com/tool/lumina-mgpt

在线试玩地址:https://106.14.2.150:10020/

欢迎点赞关注我,获取更多关于 AI 的前沿资讯。
别忘了将本日的内容分享给你的朋友们,让我们一起见证 AI 技能的飞跃!
学习商务互换