近年来,扩散模型(Diffusion Model)在视觉天生领域取得了显著的进展,Stable Diffusion模型能够依据文本信息天生高度拟真且都雅的图像,OpenAI-SORA更是在视频天生任务上取得了惊人的视觉效果。
随着SORA的提出,扩散变换器(Diffusion Transformer,DiT) 模型受到了越来越多的关注,一系列基于DiT的模型在文生图(PixArt-alpha, PixArt-Sigma, Hunyuan-DiT),与文生视频 (OpenSORA,Vidu) 任务上展现了出色的天生能力。

然而,由于文生图大模型具有巨大的参数规模(Stable Diffusion XL: 3.5B, 35亿参数,PixArt-alpha:0.9B,9亿参数)与扩散模型循环迭代式的推理特点(单次天生图片/视频须要进行数十次的大模型推理),其运行的硬件资源花费十分巨大,而视频天生须要同时天生多帧图像,进一步增加了模型的硬件开销,对其实际运用带来了巨大寻衅。
例如,Open-SORA模型天生2s16帧的视频,大概须要花费10余GB的GPU显存,在Nvidia A100 GPU上须要花费约1分钟。
难以知足实际运用处景的效率哀求。

低比特量化是一种被广泛利用的减少模型打算存储开销的方法,通过将原来高精度浮点(FP32/FP16)的模型全权重与激活值 (Weight and Activation, 简称W&A),转化为低比特定点数(INT8/INT4),可以显著减少模型显存开销与打算繁芜度。

缓解基于DiT视觉天生模型的效率问题,来自清华大学电子工程系、无问芯穹、微软、和上海交通大学研究团队,对文图/文视频天生Diffusion Transformer的量化做出了先行探索,提出了一种新颖的扩散模型低比特量化方法:《ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation》这项事情中,研究职员剖析了DiT量化的独特寻衅,并针对性设计理解决方案。
现有量化方案在W8A8量化时劣化明显,难以天生符合文本的内容,在W4A8下只能天生模糊的色块。
而ViDiT-Q量化方案能够天生与全精度模型险些相同的图片/视频。
在天生质量基本无损的条件下,ViDiT-Q能够得到2-3x的显存优化,与约1.5x的延迟优化。

若何量化文图/视频生成模型 清华u0026Infinigence提出高效且准确的DiT量化方法ViDiTQ

二、方案概述

在设计DiT的量化算法时,我们创造了现有扩散模型量化方案面临着以下寻衅:

寻衅1:在W8A8时会造成明显的视觉效果丢失,在W4A8时只能产生单色的图片。
为办理这一寻衅,我们针对DiT的模型与算法特性,设计了改进量化方案ViDiT-Q,能够实现无损的文生图模型的W8A8/W4A8量化,与文生视频的W8A8量化。

寻衅2:但在文生视频的更低比特W6A6, W4A8时,仍旧存在着图像质量的丢失。
针对更低比特量化的新寻衅,我们剖析并定位了关键问题:更低比特量化时某些极度敏感层“瓶颈”住了量化性能。
考虑到文生视频任务的特性,我们提出了指标解耦的低比特量化方法。

三、考虑DiT模型特性:ViDiT-Q量化

首先,针对现有Diffusion Quantization方案在DiT量化时遭遇的寻衅,我们通过剖析数据分布探索其性能丢失的缘故原由。
我们将DiT量化的独特关键问题概括为:“在多个不同维度上存在显著的数据动态差异”,而现有的扩散模型量化方法大多采纳了固定且粗粒度的量化参数,难以应对高度动态的数据变革。
详细的,我们将DiT模型中的数据差异概括为以下四个维度(如下图所示):

(1)令牌维度(Token)的差异:在DiT中,激活值被表达为一系列视觉令牌(Visual Tokens,对付视频模型中还包含着韶光令牌,Temporal Tokens),我们创造不同令牌的特色存在着显著的差异。

(2)掌握旗子暗记维度(Classifier-free guidance, CFG)的差异:无分类器的掌握旗子暗记引入(Classifier-free Guidance)是可控天生的一种主流范式,通过加权组合两次模型推理(一次带监督旗子暗记,一次不带监督旗子暗记)来实现可控的天生。
我们创造在有无监督旗子暗记时,模型中的激活值存在着显著的差异。

(3)韶光步维度(Timestep)差异:扩散模型的推理过程涉及在多次的神经网络迭代推理,我们创造在不同韶光步中,模型中的激活值存在着显著性的差异。

(4)通道维度(Channel)差异:对模型的权重与激活值,我们都创造了不同通道的激活值存在着显著的差异。

针对上述寻衅,我们提出了以下针对性的量化方法改进:

(1)逐Token的量化参数确定(Token-wise Quantization):DiT所采取的Transformer架构与CNN模型的关键差异在于,卷积涉及对局部像素的特色聚合,这些参与聚合的像素须要采取相同的量化参数。
因此,面向CNN的量化方法常日对全体激活值张量采取统一的量化参数(Tensor-wise quantization parameter)。
与此不同,DiT的特色聚合紧张由Attention算子完成,而网络的紧张打算开销为大量的线性(Linear)层,对Linear层来说,每个Token的打算是独立的,因此,可以采取逐Token的量化参数,来应对不同Token之间特色分布差异大的问题。
采取逐Token的量化参数,引入的额外存储开销仅为激活值张量的约千分之一,却能显著提升量化后模型的性能。

(2)动态量化参数(Dynamic Quantization):在上述寻衅中,CFG维度的差异与韶光步维度的差异是扩散模型的两个特有问题。
受此前措辞模型量化事情的启示,我们通过采取动态量化,即在线进行量化参数的统计,可以以少量的额外开销(小于LInear层打算过程约1%的延迟开销),自然的办理CFG维度与韶光步维度的差异问题。

(3)韶光步感知的通道均衡(Timestep-aware Channel Balancing):现有量化事情(如SmoothQuant)常日通过采取通道均衡的卷积技巧,来办理通道之间数据分布差异大的问题。
通过引入一个逐通道的Mask:S,在权重上除以S并在激活值上乘以S,再进行量化。
该过程将权重量化的难度转移到了激活值量化上以平衡二者的难度。
当将该技巧运用在DiT量化时,我们创造其仍旧不能填补性能丢失。
我们进一步剖析得到,激活值的逐通道数据分布,随着扩散模型的韶光步变革明显。
基于此不雅观察,我们对通道均衡进行了“韶光步感知”的改进,在不同的韶光步阶段采取不同的通道均衡Mask(如下图所示)。

四、考虑视觉天生任务特性:指标解耦的稠浊位宽设计

虽然ViDiT-Q能够有效的实现W8A8的无损量化,但面向更低位宽(W6A6,W4A8)的量化,量化后模型仍旧存在着明显的天生质量丢失。
经由进一步剖析,我们创造了更低比特下,模型量化失落效的紧张缘故原由是:量化被少部分极度敏感层所“瓶颈”。
如下图所示,W4A16量化会产生纯黑的图片,而仅仅保留某一层为全精度,就能够产生有内容的视频。

为应对某些对量化极度敏感的层,一个直不雅观的办理方案是采取稠浊位宽量化,对这些敏感层采取更高位宽。
然而,我们创造了与全精度模型输出的均方偏差(Mean Squared Error, MSE)更大,并不一定意味着更差的天生质量。
如下图所示,左侧的视频具有着更大的MSE偏差,然而,视觉效果比右侧的视频更好(右侧视频不能准确的天生文本描述中的“海鸥”,而产生了很多白色的碎片状物体)。
由于视频天生的效果须要从多方面评估,量化对多方面都会产生影响,直接采取MSE Erorr这样的数据层指标难以准确的评估量化的敏感性。

因此,考虑到视频天生任务的独特特点,我们针对视频评估的多方面:文本吻合度,视觉质量,与韶光同等性,选取了对应的指标。
经由剖析得到,不同类型的层对不同方面的影响有着较强的干系性(如下热力争)。
因此,我们提出了一种“指标解耦”的量化方法,对每种类型层,采取单独量化该层的特定指标劣化程度,来作为量化敏感性的衡量标准。

五、实验结果与剖析

我们在多种评测场景下,对多种模型进行了全面的评估。
5.1 文生视频模型的全面评测Benchmark:VBench
我们在VBench上评测了我们量化后的OpenSORA(STDiT)模型,如下表与下图所示,ViDiT-Q量化后的模型,在多方面都与全精度浮点模型得到了类似的性能。
ViDiT-Q-MP的稠浊精度模型,在W4A8时,取得了比基线量化方案W8A8显著更优的性能。

我们通过下述详细案例进一步剖析ViDiT-Q量化模型的性能保持:

(1)“物体同等性(Subject Consistency)”:基线量化方法所天生的视频中,熊的耳朵在视频中途溘然涌现了,未能完备保持物体的同等。

(2)“韶光同等性”:基线量化方法所天生的视频中,镜头未能保持恒定,视频中的楼房快速变革且跳动,未能保持视频的韶光同等性。
此外,楼房本身也

(3)“视觉效果”:基线量化方法所产生的视频比较全精度模型,涌现了明显的色差,且天生图像存在着明显的抖动。

5.2 视频天生模型的多方面指标:UCF-101数据集
我们在UCF-101数据集上测试了STDiT与Latte模型的量化结果,如下表展示,ViDiT-Q在各数据位宽上都展示了显著更优的天生质量。

5.3 文生视频与基线量化方法的比拟
我们基于Open-SORA的STDiT模型,在多种位宽下,进行了多种量化方案的比拟。
如下表所示,各种基线量化方法都难以单独办理视频模型的量化问题,ViDiT-Q在各种位宽下都取得了更优且与全精度模型类似的性能。

我们给出以下详细的视频样例来展示ViDiT-Q与现有量化方案的视觉效果比拟:

5.4 文生图模型的比拟

我们将ViDiT-Q方案运用于主流文生图DiT模型(Pixart-alpha/sigma),如下表与下图所示,基线量化方法只能产生模糊的图片,险些难以辨识物体。
而ViDiT-Q在W8A8与W4A8量化都能产生和全精度模型险些一样的图片。

5.5 硬件效率的提升

我们在Nvidia A100 GPU上进行了实际硬件Profiling评估。
由于目前缺少开源的支持动态量化的INT GPU Kernel,我们参考了静态INT GPU Kernel的实行速率,并考虑了动态量化的额外开销以进行估计。
ViDiT-Q量化后的模型能够取得2-3x的内存优化,与约1.47x的延迟优化。
我们正在实现兼容ViDiT-Q方案的高效硬件GPU算子,并操持开源(欢迎持续关注我们的项目主页:https://a-suozhang.xyz/viditq.github.io/ )。

5.6 溶解实验
我们进行了溶解实验以展示ViDiT-Q的各技巧的浸染,我们选取了W4A8这一较为具有寻衅性的场景。
如下表与下图所示,引入各技巧后,量化后模型产生的视频得到了不同程度的性能提升。

六、总结与未来指引

本文提出了ViDiT-Q,对视觉天生Diffusion transformer模型的低比特量化进行了先行探索。
我们系统剖析了DiT模型在量化上的独特寻衅,并提出对应的办理方案。
并面向更低比特量化,结合视觉天生任务的任务特性,提出了指标解耦的稠浊比特量化方案。
ViDiT-Q在广泛的评估场景(全面Benchmark,多方面指标),任务(文生图,文生视频),与主流开源模型上取得了精良的天生质量。
llustration From IconScout By Delesign Graphics
-The End-

扫码不雅观看!

本周上新!

“AI技能流”原创投稿操持

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。
社区上线500+期talk视频,3000+篇技能干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上互换活动,不定期举办技能人线下聚会互换活动。
我们正在努力成为AI人才喜好的高质量、知识型互换平台,希望为AI人才打造更专业的做事和体验,加速并陪伴其发展。

投稿内容

// 最新技能解读/系统性知识分享 //

// 前沿资讯讲授/心得经历讲述 //

投稿须知

稿件须要为原创文章,并标明作者信息。

我们会选择部分在深度技能解析及科研心得方向,对用户启示更大的文章,做原创性内容褒奖

投稿办法

发送邮件到

chenhongyuan@thejiangmen.com

或添加事情职员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众年夜众号,后台回答“投稿”二字,得到投稿解释。

关于我“门”
将门是一家以专注于数智核心科技领域的新型创投契构,也是北京市标杆型孵化器。
公司致力于通过连接技能与商业,发掘和造就具有环球影响力的科技创新企业,推动企业创新发展与家当升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技能型创业公司。
如果您是技能领域的初创企业,不仅想得到投资,还希望得到一系列持续性、有代价的投后做事,欢迎发送或者推举项目给我“门”: