▲ 图源 谷歌官方新闻稿(下同)

谷歌表示,业界绝大多数“文生视频模型无法天生韶光长、质量佳、动作连贯逼真的内容,这是由于此类模型常日“分段天生视频”,首先产生几张关键帧,接着用“韶光超级分辨率(Temporal Super-Resolution)”技能,天生关键帧之间的视频文件,这种方法虽然能够节省 RAM,但难以天生“连贯逼真”的视频。

谷歌提到,他们的新模型 Lumiere 相对付业界模型最大的不同是采取了全新“Space-Time U-Net”根本架构,该架构能够在空间和韶光上同时“降采样(Downsample)”旗子暗记,从而在“更紧凑的时空中进行更多运算”,令 Lumiere 天生持续韶光更长、动作更连贯的视频。

IT之家把稳到,Lumiere 一次可以天生 80 帧视频(16FPS 下 5 秒视频 / 24FPS 下约 3.34 秒视频),虽然这一数据看起来很短,不过研究职员提到,5 秒视频长度实际上“已经超过大多数媒体作品中的均匀镜头时长”。

除了运用“Space-Time U-Net”根本架构外,谷歌还先容了 Lumiere 的根本特性,该 AI 建立在一个经由预先演习的“文生图”模型根本上,研究职员首先让根本模型天生视频分帧的基本像素草稿,接着通过空间超分辨率(SSR)模型,逐步提升分帧分辨率及细节,并利用“Multidiffusion”通用天生框架提升模型稳定性,从而担保了终极输出的视频同等性和连续性。

可经由进程文字生成连贯动作视频谷歌推出AI扩散模型Lumiere