机器之心编辑部
今年是 AI 视频天生爆发的元年,以 Sora 为代表的算法模型和产品运用不断呈现。短短几个月内,我们目睹了几十种视频天生工具的问世,基于 AI 的视频创作办法开始盛行起来。
但新技能也引发更多的寻衅与质疑,除了大家熟知的 “开盲盒” 征象,AI 所天生的视频内容也因可控性差、处理事情流繁琐而频频被诟病。
OpenAI 曾经约请专业视频制作团队对 Sora 进行了测试,个中来自于多伦多的 Shy Kids 团队,利用 Sora 制作了一个气球人主题的短片,把创意和 AI 技能进行了完美的结合,让人印象深刻。
全体短片实在并不是 Sora 直接输出的结果,而是由多个视频片段组成,且 Sora 在天生不同视频时,很难担保主角的同等性。因此,在引入了大量的人工后期编辑,他们才呈现出终极的短片效果。Shy Kids 的主创们总结,“Sora 的技能很酷,但是它的天生过程很难掌握。”
对天生内容的精准可控,是 AI 视频创作中的主要需求,也是本日年法面临的一大寻衅。
为此,在刚结束的上海天下人工智能大会(WAIC)上,达摩院发布了一站式 AI 视频创作平台 “寻光”。
其定位为 PUGC 一站式 AI 视频创作平台,可赞助用户创作剧本、分镜图等,并通过事情流整合提升创作全流程的效率,支持对天生及上传素材进行丰富的 AI 编辑,供应人物掌握、场景掌握、风格迁移、运镜掌握、目标新增 / 肃清 / 修正等十多种 AI 编辑功能,让视频中的元素和工具精准可控。
达摩院希望借由寻光平台进一步提升 AI 视频创作的效率,目标是用 AI 能力重塑传统视频制作的全体流程,打造 AI 时期的全新视频事情流。
业界首次落地
基于图层的视频编辑
在寻光研发的初期,达摩院还与影视传媒从业者及创作者进行了广泛且密集调研,理解其对付视频 AIGC 创作的需求与痛点。他们创造,视频图层险些是所有视频创作者们提到频次最高、最急迫的需求。
基于此,寻光平台首次在行业推出系统性的视频图层编辑功能。用户通过文本输入,即可天生符合文本描述且具有透明背景的视频,并且一键将其领悟到其他背景视频当中。在传统视频天生能力的根本上,用图层这样一种更灵巧的形式来产生内容。
寻光更供应图层拆解功能,轻轻一圈,选定目标急速拆解为单独的图层视频,再丝滑嵌入不同的背景视频。
用户可以将不同的前景图层跟不同的背景进行图层领悟,组合出更多新的视频。图层领悟的能力进一步引发 AI 创作力和想象力,同时能够保持多个分镜头之间的场景和人物的同等性。
在达摩院看来,AI 不会取代创作者的事情,而是会优化视频创作的事情流,成为创意驱动的新引擎。
一站式 AI 创作平台
更简洁的交互,更丰富的编辑能力
剧本创作、分镜设计、素材编辑…… 传统的视频创作步骤分工明晰、周期冗长。在 AI 技能的加持下,原来分散在不同制作流程中的创作步骤,如今都可以在寻光平台上流畅完成。
“我们希望让视频编辑像操作 ppt 一样简洁直不雅观,随意马虎上手。” 达摩院视觉技能实验室高等算法专家陈威华在现场先容,寻光平台的一大亮点在交互方面。
寻光平台在设计时便充分考虑到 AI 视频创作的特点,将每个视频项目抽象为多个分镜头画面,用户可根据剧本自动天生一组分镜头,也可以自己上传原始视频素材,由算法切分成多个分镜头。
在创作空间里,用户可以很方便的查看每一个分镜头,一个场景内的多个分镜头可以收起或者展开,场景之间可以通过拖拽来调度顺序,场景内的分镜头也可以进行拖拽。用户也可以在任意位置上进行分镜头的添加和新建,可调用图片天生或者视频天生能力去产生内容,也可以添加自己已有的各种素材。
对付每个分镜头,寻光供应完全且智能的 AI 视频编辑能力进行处理,可依据用户意图,在语义层面而不是像素层面实现编辑。分镜头里的人体、人脸、前景、背景等任意局部目标,都可以进行风雅化的编辑和修正。
比如,理解空间景深的运镜掌握;
又比如,能够理解物体相对关系的目标肃清 / 修正。
在对视频全局元素的编辑上,寻光平台供应了超过 20 种的风格迁移。
寻光也供应帧率掌握、视频超分等实用的视频编辑功能。
“我们希望一个视频里的所有元素都是可编辑、可修正的,这样可以给用户的创作供应最大的自由度”,陈威华说。
写在末了
本日,我们正处在 AIGC 的变革浪潮之中,AI 有可能催生出新的视频事情流。无论是专业的影视从业者还是热爱创作的 UGC 用户,都将从中获益。
“工欲善其事,必先利其器”,达摩院希望寻光视频创作平台能够成为每一位创作者的专属视频事情室,实现 AI 与创作者之间更紧密、高效的协作,真正开释 AI 的生产力。
为此,达摩院视觉技能实验室已做了大量技能储备。该实验室致力于多模态视觉旗子暗记的理解与天生技能研究,当前的重点研究方向包括更加精准的图像 / 视频 / 3D 内容天生,更加可控的图像 / 视频 / 3D 内容编辑,更加高效的天生框架,多模态的理解 - 天生框架等。
陈威华表示,“寻光”将于近期开放内测,持续迭代,优化交互,欢迎创作者们来定制属于自己的 AI 事情流。
内测申请地址:
https://xunguang.damo-vision.com/