量子位 | 公众年夜众号 QbitAI
耗费的打算资源仅为传统Stable Video Diffusion(SVD)模型的2/25!
AnimateLCM-SVD-xt发布,一改视频扩散模型进行重复去噪,既耗时又需大量打算的问题。
先来看一波天生的动画效果。
赛博朋克风轻松驾驭,男孩头戴耳机,站在霓虹闪烁的都邑街道:
写实风也可以,一对新婚夫妇依偎在一起,手捧精细花束,在古老石墙下见证爱情:
科幻风,也有了外星人入侵地球的即视感:
AnimateLCM-SVD-xt由来自喷鼻香港中文大学MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究职员共同提出。
2~8步就能天生25帧分辨率576x1024的高质量动画,并且无需分类器勾引,4步天生的视频就能实现高保真,比传统SVD更快、效率更高:
目前,AnimateLCM代码即将开源,有在线demo可试玩。
上手试玩demo在demo界面可以看到,AnimateLCM目前有三个版本,AnimateLCM-SVD-xt是通用图像到视频天生;AnimateLCM-t2v方向个性化文本到视频天生;AnimateLCM-i2v为个性化图像到视频天生。
下面是一个配置区域,可以选择根本的Dreambooth模型,也可以选择LoRA模型,并通过滑动条调度LoRA alpha值等。
接下来可以输入Prompt、负面prompt,辅导天生的动画内容和质量:
还有一些参数可以调度:
我们上手体验了一把,提示词为“clouds in the sky”,参数设置如上图,采样步骤仅为4步时,天生的效果是这样婶儿的:
采样步骤为25步时,提示词“a boy holding a rabbit”,效果如下:
再看看一波官方放出的展示效果。2步、4步、8步效果比拟如下:
步数越多,动画质量越好,仅4步AnimateLCM就能做到高保真:
各种风格都能实现:
怎么做到的?
要知道,虽然视频扩散模型因能天生连贯且高保真度的视频而受到越来越多的关注,但难题之一是迭代去噪过程不仅耗时而且打算密集,这也就限定了它的运用范围。
而在AnimateLCM这项事情中,研究职员受到同等性模型(CM)启示,该模型简化了预演习的图像扩散模型以减少采样所需的步骤,并在条件图像天生上成功扩展了潜在同等性模型(LCM)。
详细来说,研究职员提出了一种解耦的同等性学习(Decoupled Consistency Learning)策略。
首先在高质量的图像-文本数据集上蒸馏稳定扩散模型为图像同等性模型,然后在视频数据上进行同等性蒸馏以得到视频同等性模型。这种策略通过在空间和韶光层面上分别演习,提高了演习效率。
此外,为了能够在Stable Diffusion社区中实现即插即用适配器的各种功能(例如,用ControlNet实现可控天生),研究职员又提出了Teacher-Free自适应(Teacher-Free Adaptation)策略,使现有的掌握适配器更符合同等性模型,实现更好的可控视频天生。
定量和定性实验都证明了方法的有效性。
在UCF-101数据集上的零样本文本到视频天生任务中,AnimateLCM在FVD和CLIPSIM指标上均取得了最佳性能。
溶解研究验证理解耦同等性学习和特定初始化策略的有效:
项目链接:[1]https://animatelcm.github.io/[2]https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt[3]https://huggingface.co/spaces/wangfuyun/AnimateLCM
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态