起底可灵背后事理与Sora类似将扩散模型结合Transformer

这家拥有 6 亿多生动用户的短视频平台于 6 月 6 日宣告了这一新工具，名为可灵大模型（Kling）。

该公司在其网站上表示，与 OpenAI 的 Sora 模型一样，可灵能够天生“长达两分钟的视频，帧率为每秒 30 帧，视频分辨率高达 1080p”。

但不同的是，在 OpenAI 官宣 Sora 四个月后，它仍旧未向"大众开放，可灵已经开始让人们自己考试测验这个模型。

我已经体验了该模型。
我下载了快手的视频编辑工具，注册了一个账号，进入了候补名单，并通过快手的用户反馈小组填写了一份额外的表格，之后我就可以利用它了。

该模型不能处理完备用英语编写的提示，但你可以将短语和提示翻译成中文，或者在提示中添加一两个中文单词来办理这个问题。

以下是我用可灵天生的一些结果，展示了它的真实表现。
还记得 Sora 令人印象深刻的东京街景演示视频吗？还记得猫在花园里奔跑的视频吗？以下是可灵天生的：

还记得 Dall-E 天生的骑马宇航员的照片吗？我让可灵制作了一个视频版本。

我们看到了一些值得夸奖的地方。
这些视频都没有偏离提示太多，物理事理彷佛是精确的，相机的平移、褶皱的树叶，以及马和宇航员旋转的办法，还显示了他们身后的地球。

每个视频的天生大约须要三分钟。
不是同类模型里最快的，但完备可以接管。

但也有明显的缺陷。
这些视频的格式为 720p，看起来模糊而粗糙；有时可灵会忽略提示中最主要的哀求；最主要的是，现在天生的所有视频都被限定在 5 秒，这使得它们的动态性和繁芜性大大降落。

然而，将这些结果与 Sora 的演示进行比较并不公正。
Sora 的演示视频是由 OpenAI 精心挑选并向公众年夜众发布的，可能代表了比均匀水平更好的结果。

这些可灵视频是我对每个提示的第一次考试测验，我很少利用诸如“8k（分辨率），摄影写实主义”之类的提示工程关键词来微调结果。

北京的人工智能艺术家 Guizang（哀求用网名）说，可灵的能力已经足够好了，他自该模型发布以来一贯在测试它，并整理了 Sora 和可灵之间的一系列直接比拟。

他指出，可灵的缺陷在于结果的都雅性，比如构图或颜色分级。
“但这不是一个大问题，而且可以很快办理。
”Guizang 见告《麻省理工科技评论》。

“一个模型的核心能力在于它如何仿照物理天下和真实的自然环境。
”他认为可灵在这方面做得很好。

可灵的事情办法与 Sora 类似：它将常用于视频天生人工智能的扩散模型与 Transformer 架构相结合，这有助于它理解更大的视频数据文件并更有效地天生结果。

但与 Sora 比较，可灵可能有一个关键上风。
快手是抖音在中国最大的竞争对手，它有一个弘大的视频平台，拥有数亿用户，他们上传了大量可用于演习可灵的视频数据。

快手在一份声明中见告《麻省理工科技评论》，“可灵依据行业标准，利用环球互联网上公开的数据进行模型演习。
”

然而，该公司没有详细解释演习数据的细节。
同样地，OpenAI 也没有详细解释 Sora 的演习细节，这引发了人们对知识产权保护的担忧。

在测试了这个模型之后，我以为目前可灵在实用性方面的最大限定是它只能天生 5 秒长的视频。

这种限定意味着这项技能对短视频行业的影响将大于对电影行业的影响。

那些专为在手机上不雅观看而设计的短视频，常日要在几秒钟内吸引不雅观众的把稳力。

抖音之类的中国短视频平台在评估视频是否成功时，常日会看有多少人看完了前三到五秒。
因此，一个只有五秒长的人工智能天生的高质量视频片段可能会改变短视频创作者的游戏规则。

Guizang 赞许人工智能可能会冲破现有短视频内容创作规则。
它将在短期内作为一种生产力工具使创作者受益。

但从长远来看，他担心快手和抖音等平台可能会接管视频制作，直接为用户定制内容，从而减少平台对网红创作者的依赖。

这项技能可能还须要相称长的韶光才能发展到这个水平，但文本到视频工具领域现在越来越生动。

在可灵发布一周后，美国加州一家名为 Luma AI 的初创公司也发布了类似的模型供"大众年夜众利用。
视频天生的明星初创公司 Runway 也宣告了一项重大更新，这将使其模型更加强大。

据宣布，快手最大的竞争对手字节跳动也在努力尽快发布其视频天生工具。
“到今年年底，我们将看到更多选择。
”Guizang 说。

当“任何人都可以根据自己的需求快速天生视频片段”时，我请可灵以此为题天生那是一个什么样的社会。
下面这个视频便是它给我的回应，里面有一双很真实的手，但遗憾的是，它并没有回答这个问题。

支持：Ren

排版：溪树

每期AI知识网