编辑:泽南、杜伟

难不成,AI 天生短剧时期真的要来了?

最近,各路视频天生 AI 放出的 Demo 让人眼花缭乱。
从玩梗图、拼长度再到讲究真实物理逻辑,层出不穷的人工智能创意难决牝牡,个个都要跟 Sora 试比高。
这时候,溘然有人偷偷先行一步,搞出了「电影级」的表现:

从真实风格的光影效果:

70万人争先体验视频生成新王者可灵AI又双叒进级了

来源:https://x.com/i/status/1806383419661730197

到丰富的想象力,要素完好,都能搞定:

没想到在 AI 眼里,实在是蝙蝠侠能让小丑绷不住。
来源:https://x.com/blizaine/status/1806383419661730197

有的人已经在考试测验利用这种能力来完成繁芜的任务。
有视频天生的 AI,音乐天生的 AI,再加上一些 PS 和 AE,我们就可以制作出完全的 MV 了。

来源:https://twitter.com/Arata_Fukoe/status/1809840865063629292

你问网友们如何看待这种天生效果,网友要反问一句「好莱坞你怎么看?」

这种 AI 视频天生的效果丝滑且风雅,吸引了一大波点赞,仔细翻看,社交网络上由它出品的短视频还有不少。

据网友总结道,新款 AI 的上风紧张表示在天生大幅度运动时不随意马虎乱脑补。
再比如让它图生视频,一个奔跑的半人马:

来源:https://x.com/StevieMac03/status/1809694320649465930

这些视频背后的天生式 AI,是快手旗下的大模型「可灵 AI」(Kling),几个星期前它开始在环球互联网上刷爆,那时就号称「一号难求」。

没错,这不是先放出一些 Demo 搞 PPT 发布,而是上来就直接开放的产品级运用。
现在可灵 AI 已经上线了网页版,主打一个大略好用。

最新数据,可灵 AI 的申请用户数量已经靠近 70 万,成了全网最热的视频天生大模型。

一月数次升级,可灵 AI 的狂飙式进化

今年是天生式 AI 元年,早在 2 月份,OpenAI 的 Sora 就把竞争拉到了视频天生的高度。
但率先落地的还数海内科技公司。

自 6 月 6 日正式亮相以来,才一个月的韶光,快手可灵 AI 这一首个在外洋 AI 圈引起热议的国产大模型就经历了三次迭代更新。

从最开始的文生视频,到两周后支持图生视频、视频续写、多尺寸选择,可灵 AI 表现得越来越出色、全面。
视频天生的各种需求,不知不觉中彷佛都被办理了。

就在上周末的天下人工智能大会 WAIC 2024 上, 可灵 AI 迎来第三次大的升级,发布了一系列新功能,在视频天生质感、美感、可玩性方面大大提升,带来了创作体验上的又一次跃升。

快手高等副总裁、快手主站业务与社区科学线卖力人盖坤先容了这次可灵 AI 升级的三大亮点功能,包括高画质版、首尾帧掌握和相机镜头掌握。

盖坤

首先,可灵 AI 根本模型再度升级,推出了更加清晰的高画质版。
升级后,天生视频的画质相较于之前模型有了质的飞跃。

同时得益于更高的演习时空分辨率,可灵 AI 在天生细节、构图、运镜都雅性、光影方面都有很大改进。

从如下画质的比拟中,我们可以一览无余地看出可灵 AI 之前模型与最新模型之间的差异。

其次,可灵 AI 在图生视频领域增加了实用且呼声很高的「首尾帧掌握」功能,让首尾帧呼应的图生视频成为了现实。

通过自定义起始帧和结束帧图像,让用户精确掌握不同视频片段之间镜头的丝滑转场,实现一镜到底等效果。
从实际天生结果来看,不仅动作自然流畅,画质也能够得到担保。
这一功能的引入让用户拥有了更直不雅观、更便捷的编辑体验,知足了个性化的图生视频需求。

比如将如下两图天生一段视频:

效果是这样的:

末了,可灵 AI 增加了运镜掌握以及自动大师运镜功能。
在视频的天下中,更多镜头的组合可以捕捉更多画面,并增强整体表现力。

可灵 AI 预设了六套经典的镜头掌握办法,包括 Roll 旋转运镜、Tilt 垂直摇镜、Pan 水平摇镜、Vertical 垂直运镜、Horizontal 水平运镜和 Zoom 推进 / 拉远,为不同场景供应了丰富的选择。
用户还可以调节这些运镜的正数、负数参数,从而掌握运动的激烈或平缓程度以及反向运动等。
同时,大师级运镜有助于产出电影感十足的吸睛大片。

可以看到,随着这些新功能的加入,可灵 AI 在视频清晰度、美学表现以及内容自定义掌握方面有了肉眼可见的改进。

不仅如此,正式与用户见面的可灵 AI 网页版集成了文生图、文生视频以及不久后将支持的视频编辑能力,成为发布即可用的一站式视觉内容创作平台。

个中新增的「首尾帧掌握」和「运镜掌握」功能目前在网页端供应,想要体验的小伙伴可以速速去申请了!

可灵 AI 网页版地址:klingai.kuaishou.com

用「诚意满满」来形容可灵 AI 这次的升级不为过,背后当然离不开快手在视频天生能力和技能上的持续创新打破。

「电影级」AI 天生,背后全是技能

相较于已经非常成熟的图像天生,视频天生任务更繁芜,在实际运用中要面临着真实性、动作连贯性、画面流畅性、细节精度、场景、角色和光影同等性、物理准确性以及时长限定等诸多寻衅。

这些寻衅应对得好不好,将直接决定了模型的实用性和易用性。
显然,再度升级的可灵 AI 在这些方面有了洗手不干的变革。
总结起来,可灵 AI 拥有七大能力亮点。

快手视觉天生与互动中央卖力人万鹏飞对这些能力逐一展开了阐发,这些构筑起可灵 AI 在视频画质、图生视频、运动天生、天生时长、物理规律、指令相应、视频可控性等方面的核心竞争力,并造就了如今全能的可灵 AI。
同时,万鹏飞还对未来发展做出了展望,他表示,视频天生效果的提升速率非常快,正在逐步靠近图形渲染和相机拍摄,将会对泛视频行业带来新的机遇。

万鹏飞

实在我们已经见识过了可灵 AI 的能力,前文展示的高画质版、首尾帧掌握和相机镜头掌握新功能正是可灵 AI 在电影级高清画面天生、领先图生视频效果和精良视频天生可控性三大能力上的进一步蜕变。

个中电影级的高清画面天生能力能够高保真、生动地呈现壮阔的自然风光、人或动物的动作和表情等伟大或细微的场景,大片感十足。

领先的图生视频能力可以让静态图像动起来,转换为生动的 5 秒短视频。
同时搭配不同的文本输入,让图生视频更有创意且「为所欲为」。

比如将小狗拍浮的图像转换为视频:

效果是这样的:

精良的视频天生可控性让更加风雅的视频创作掌控在用户手中。
除了这次的相机镜头掌握之外,可灵 AI 未来还将在语音面部匹配、人物 ID 保持、通过大略笔画提示掌握画面和布局的演进等更多方面实现可控调度。
目前模型的演习已经完成,这些功能很快就会上线。

与此同时,可灵 AI 在运动天生、天生时长、物理规律、指令相应等其他四大能力上也进一步升级。

其一可灵 AI 具有大幅度且合理的运动天生能力。
通过建模繁芜的时空运动,可灵 AI 可以天生较大幅度的运动,并符合运动规律。

这次得益于更充分的模型演习,可灵 AI 天生的整体运动效果更加灵动,支持更大动作范围的同时合理性也没有削弱。
如下小猫的转身、走路姿势等都刻画地非常自然合理,符合物理事实。

其二是分钟级的长视频天生能力。
现在,分钟级时长已成为评价一个视频天生模型的主要指标,这哀求更有效的多镜头处理、更长的故事讲述以及更连贯同等的运动扩展能力。

目前,可灵 AI 能够天生数分钟的 1080p、30fps 视频。
同时开放了遵照用户指令的视频续写功能,单次续写让视频运动延时 4 到 5 秒,还支持连续多次续写,最长可以天生 3 分钟的视频,并且续写时能够指定故事后续发展方向,易用性拉满。

这次升级后,可灵 AI 在算法和工程层面进行告终合深度优化,使得单次天生的视频长度从 5 秒提升到了 10 秒,在对用户开放利用的产品中实现最永劫长,可以呈现更加完全的故事线,为用户供应了更广阔的创作空间。

其三可灵 AI 能够仿照繁芜的物理天下特性。
自 Sora 以来,各家视频天生模型都非常看重天生符合物理规律的视频,这决定了模型能力的上限。

可灵 AI 在发布之初就能够准确地建模和仿照现实天下的属性,让天生的视频靠近真实,比如给小猫沐浴。

现在,在更充分模型演习的加持下,可灵 AI 对交互式物理规律的建模和仿照能力又上了一个台阶。

其四可灵 AI 的观点组合和指令相应能力非常强。
在技能实现上,通过对文本到视频跨模态语义的深刻理解,可灵 AI 能够将用户丰富的想象力轻松转换为详细的视频画面,放飞脑洞,比如咖啡杯火山。

升级后的可灵 AI 接管了效果更优的文本数据和编码方案,自然而然对用户提示词的相应能力得到增强,视觉渲染效果更好了。

所有这些能力又源于可灵 AI 在视频天生技能路线(采取 DiT 架构)、模型设计(如隐空间编解码、时序信息建模、文本扩展及编码)、数据保障(如多维度标签体系、视频描述模型)、打算效率(如分布式演习集群、分阶段演习策略)、能力扩展(如视频时序延展、多模态输入可控)等方面的技能积累和独到创新。

可以说,如今的可灵 AI 在技能层面做到了前辈且靠谱,怪不得技能一落地就受到了人们的追捧。

天生式 AI 时期,快手有备而来

过去一年多的韶光里,全体大模型领域可以说是非常的卷。
去年都在谈基座模型的研发,今年大家又都在谈论运用。
最近几天 WAIC 大会开幕,我们又目睹了一波「模型派」和「运用派」之间的辩论。

在这波浪潮中,快手又是怎么做的?

首先,它玩的是体系。
从底层的 IDC 算力中央到网络架构、AI 平台,到中层的根本核心大模型,再到运用层的各种运用探索,快手实现了全套自行研发。
在谈到该体系时,快手副总裁大模型团队卖力人张迪认为,武断投入自主研发长期来说会带来「技能雪球」效应以及巨大的本钱上风。
快手一个非常大的上风便是在上层拥有大量的 AI 运用处景,这将给大模型带来非常多的落地机会。

张迪

整体框架是这样:

其次,快手坚持走根本模型技能研究和商业运用落地并举的计策。
根本模型决定了 AI 能力的上限,研究投入的量变可以引发质变;另一方面,商业化运用能够滚起技能的雪球,把新技能阶段性投入运用,不断收成反馈,才能逐渐形成良性循环。

去年开始,快手提出了「快意」大模型(KwaiYi),很快从早期的 13B 参数量发展到了 175B,并推出了多模态版本。
在多个版本的迭代后,快意大模型已经在快手内部的素材创作、AI 互动、内容生产等场景中开始发挥浸染,在今年 6 月,基于快意的 AIGC 营销素材单日花费超过了 2000 万。

有了根本模型,在更多的场景上,快手逐渐发展出了自己的差异化能力。

详细来说,在文生图上,快手的「可图」已成为行业内顶尖的模型之一,拥有强大的语义理解和指令跟随能力。
得益于在文本表征方面的创新,以及图像数据对齐的大量事情,可图可以画出摄像级的画面质感,经由强化学习的演习,审美也和人类的普遍标准实现了对齐。

而在视频的天生上,「可灵 AI」燃起了环球视频天生领域的新一轮竞争。
它可以进行文生视频、图生视频,又具有丰富的图像编辑能力,在视频天生的可控性、质感、美感、运动合理度方面保持业内精良。
快手的工程师们正在持续进行工程算法的优化,力争不断降落视频天生 AI 的门槛。

说到打下门槛,新技能的优化是当前天生式 AI 面临的主要寻衅之一。
作拥国民级短视频运用,快手的上风在于拥有大量 AI 运用处景,这就给落地实践带来了场景和机会。

在技能落地上,快手实现了一系列里程碑:

快手在 APP 评论区内测的对话模型运用「AI 小快」,可以理解视频中的内容并与你互动,至今已经累积了超过 1000 万的粉丝量。
在电商的直播间里,利用文生图 AI「可图」的能力,老铁们也可以用自己的生活照快速试衣,乃至看到动态展示。
视频天生模型「可灵 AI」自发布以来得到了用户的广泛认可,已经累计天生了 700 万条视频,开放了一站式内容创作平台。
从内容的生产、理解到推举平分歧层面,从个人再到电商,快手的天生式 AI 能力已经做到了对付主体业务的全覆盖,持续推进着快手生态的不断发展。

末了还有新的考试测验。
在 WAIC 上,快手预报说首部 AIGC 短剧《山海奇镜之劈波斩浪》将在本月正式发布。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650925433&idx=1&sn=970d6ea088f5c7c1b9f2b46371b872d1&chksm=84e42d07b393a411fe24bdd61d670ad31e035a72c89d658d3d6acbc77d0d7ea90a1c7469b206&token=761964394&lang=zh_CN#rd

该剧由可灵 AI 供应深度技能支持,以赛博风格来复现山海经里的上古神话天下。
从预报片来看,山脉到海洋、森林到天涯等场景都呈现出了震荡的视觉效果。
在以往,如此效果可能须要专业的殊效团队,现在,视觉天生 AI 就能带来震荡的视觉体验了。

没错,半年前我们还在畅想未来,现在 AI 真的开始拍电影了。

当前大模型的浪潮中,最能证明技能能力的莫过于大规模落地。

而快手全方位的实践让我们再次确认:AI 的生产力已在不知不觉间,改变着我们的生活。