图片合成3D视频开源的3D衬着视频模型问世

本次的下手工具是视频。

3月18日，Stability AI发布了用于渲染3D视频的天生式AI视频工具Stable Video 3D（SV3D）。

全新SVD的模型支持文本到视频、图像到视频天生。

只需输入几行描述性的笔墨，或放入一段静态图像，你就能得到一段生动的动态视频。

不只如此，它还支持物体从单一视角到多视角的转化。
这意味着用户可以仅供应一个静态图像，SV3D就能够展示该工具从不同角度的样貌。
并通过天生的多视角图像，进一步构建工具的3D网格模型，为用户供应一个完全的三维视觉体验。

这一全新的技能就像是给视频制作领域注入了一剂强心针，让内容创作者们激动不已。

乃至发问：

那么，SV3D是如何做出此番打破的呢？

研究职员表露：“这紧张得益于大规模预演习天生模型，使其能够充分泛化到各个领域。
”

Stable Video 3D基于去年末发布的Stable Video Diffusion模型，后者经由大型数据集如LAION和LVD的演习。
随后，SV3D在“Objaverse”数据集的精髓精辟版本上进行了进一步演习，该数据集包含了大量的3D物体。

这让他可轻松适应各种下贱任务，包括通过对多视图数据集进行微调从单个图像进行多视图合成。

此外，SV3D还首次将视频扩散模型运用到了3D天生领域。
利用视频模型的韶光同等性来提高3D天生的同等性。

它有两个变体：

SV3D_u：此变体基于单图像输入天生360度环抱视频，无需相机条件。

SV3D_p：在SV3D_u的根本上扩展，能够处理单图像和轨道视图，许可沿特定相机路径创建特定视角3D视频。

不只如此，研究职员还改进了3D优化技能。

比如采取由粗到细的演习策略，优化NeRF和DMTet网格来天生3D工具。

比如设计了一种名为掩码得分蒸馏采样（SDS）的分外丢失函数，通过优化在演习数据中不直接可见的区域，来提高天生3D模型的质量和同等性。

比如引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

比如采取CFG（无分类器勾引）来掌握天生的清晰度，采取三角形CFG缩放来避免过度锐化。

形形色色，不一而足。

虽然目前只发布了根本模型，但Stability AI官方透露“正操持连续扩展，建立类似于Stable Diffusion的生态系统”。

Stable Video 3D也确实秉承了Stability AI一向的开放传统，官方公布了两种图像到视频模型，可以以每秒3到30帧之间的自定义帧速率天生14（SVD）和25帧（SVD-XT）的视频。

美中不敷的是，该模型最低的显卡运行哀求为英伟达GeForce RTX 4090及以上。

此外，Stable Video 3D不可商用。
想要商业利用的小伙伴，可能还得订阅一个Stability AI Professional的会员（每月20美元）。

在接管VentureBeat采访时，Stability AI首席研究员Varun Jampani表示，“Stable Video 3D是天生3D资源的宝贵工具，特殊是在游戏行业内。
此外，它还能制作360度环抱视频，这在电子商务中很有用，为购物供应了更具沉浸感和互动性的体验。
”

或许在不久的将来，3D天生技能就会被用到游戏和视频项目中，让所有人大吃一惊。

官方网址：https://stability.ai/news/introducing-stable-video-3d

开源地址：https://huggingface.co/stabilityai/sv3d

每期AI知识网