70万人争先体验视频生成新王者可灵AI又双叒进级了

编辑：泽南、杜伟

难不成，AI 天生短剧时期真的要来了？

最近，各路视频天生 AI 放出的 Demo 让人眼花缭乱。
从玩梗图、拼长度再到讲究真实物理逻辑，层出不穷的人工智能创意难决牝牡，个个都要跟 Sora 试比高。
这时候，溘然有人偷偷先行一步，搞出了「电影级」的表现：

从真实风格的光影效果：

70万人争先体验视频生成新王者可灵AI又双叒进级了

来源：https://x.com/i/status/1806383419661730197

到丰富的想象力，要素完好，都能搞定：

没想到在 AI 眼里，实在是蝙蝠侠能让小丑绷不住。
来源：https://x.com/blizaine/status/1806383419661730197

有的人已经在考试测验利用这种能力来完成繁芜的任务。
有视频天生的 AI，音乐天生的 AI，再加上一些 PS 和 AE，我们就可以制作出完全的 MV 了。

来源：https://twitter.com/Arata_Fukoe/status/1809840865063629292

你问网友们如何看待这种天生效果，网友要反问一句「好莱坞你怎么看？」

这种 AI 视频天生的效果丝滑且风雅，吸引了一大波点赞，仔细翻看，社交网络上由它出品的短视频还有不少。

据网友总结道，新款 AI 的上风紧张表示在天生大幅度运动时不随意马虎乱脑补。
再比如让它图生视频，一个奔跑的半人马：

来源：https://x.com/StevieMac03/status/1809694320649465930

这些视频背后的天生式 AI，是快手旗下的大模型「可灵 AI」（Kling），几个星期前它开始在环球互联网上刷爆，那时就号称「一号难求」。

没错，这不是先放出一些 Demo 搞 PPT 发布，而是上来就直接开放的产品级运用。
现在可灵 AI 已经上线了网页版，主打一个大略好用。

最新数据，可灵 AI 的申请用户数量已经靠近 70 万，成了全网最热的视频天生大模型。

一月数次升级，可灵 AI 的狂飙式进化

今年是天生式 AI 元年，早在 2 月份，OpenAI 的 Sora 就把竞争拉到了视频天生的高度。
但率先落地的还数海内科技公司。

自 6 月 6 日正式亮相以来，才一个月的韶光，快手可灵 AI 这一首个在外洋 AI 圈引起热议的国产大模型就经历了三次迭代更新。

从最开始的文生视频，到两周后支持图生视频、视频续写、多尺寸选择，可灵 AI 表现得越来越出色、全面。
视频天生的各种需求，不知不觉中彷佛都被办理了。

就在上周末的天下人工智能大会 WAIC 2024 上，可灵 AI 迎来第三次大的升级，发布了一系列新功能，在视频天生质感、美感、可玩性方面大大提升，带来了创作体验上的又一次跃升。

快手高等副总裁、快手主站业务与社区科学线卖力人盖坤先容了这次可灵 AI 升级的三大亮点功能，包括高画质版、首尾帧掌握和相机镜头掌握。

盖坤

首先，可灵 AI 根本模型再度升级，推出了更加清晰的高画质版。
升级后，天生视频的画质相较于之前模型有了质的飞跃。

同时得益于更高的演习时空分辨率，可灵 AI 在天生细节、构图、运镜都雅性、光影方面都有很大改进。

从如下画质的比拟中，我们可以一览无余地看出可灵 AI 之前模型与最新模型之间的差异。

其次，可灵 AI 在图生视频领域增加了实用且呼声很高的「首尾帧掌握」功能，让首尾帧呼应的图生视频成为了现实。

通过自定义起始帧和结束帧图像，让用户精确掌握不同视频片段之间镜头的丝滑转场，实现一镜到底等效果。
从实际天生结果来看，不仅动作自然流畅，画质也能够得到担保。
这一功能的引入让用户拥有了更直不雅观、更便捷的编辑体验，知足了个性化的图生视频需求。

比如将如下两图天生一段视频：

效果是这样的：

末了，可灵 AI 增加了运镜掌握以及自动大师运镜功能。
在视频的天下中，更多镜头的组合可以捕捉更多画面，并增强整体表现力。

可灵 AI 预设了六套经典的镜头掌握办法，包括 Roll 旋转运镜、Tilt 垂直摇镜、Pan 水平摇镜、Vertical 垂直运镜、Horizontal 水平运镜和 Zoom 推进 / 拉远，为不同场景供应了丰富的选择。
用户还可以调节这些运镜的正数、负数参数，从而掌握运动的激烈或平缓程度以及反向运动等。
同时，大师级运镜有助于产出电影感十足的吸睛大片。

可以看到，随着这些新功能的加入，可灵 AI 在视频清晰度、美学表现以及内容自定义掌握方面有了肉眼可见的改进。

不仅如此，正式与用户见面的可灵 AI 网页版集成了文生图、文生视频以及不久后将支持的视频编辑能力，成为发布即可用的一站式视觉内容创作平台。

个中新增的「首尾帧掌握」和「运镜掌握」功能目前在网页端供应，想要体验的小伙伴可以速速去申请了！

可灵 AI 网页版地址：klingai.kuaishou.com

用「诚意满满」来形容可灵 AI 这次的升级不为过，背后当然离不开快手在视频天生能力和技能上的持续创新打破。

「电影级」AI 天生，背后全是技能

相较于已经非常成熟的图像天生，视频天生任务更繁芜，在实际运用中要面临着真实性、动作连贯性、画面流畅性、细节精度、场景、角色和光影同等性、物理准确性以及时长限定等诸多寻衅。

这些寻衅应对得好不好，将直接决定了模型的实用性和易用性。
显然，再度升级的可灵 AI 在这些方面有了洗手不干的变革。
总结起来，可灵 AI 拥有七大能力亮点。

快手视觉天生与互动中央卖力人万鹏飞对这些能力逐一展开了阐发，这些构筑起可灵 AI 在视频画质、图生视频、运动天生、天生时长、物理规律、指令相应、视频可控性等方面的核心竞争力，并造就了如今全能的可灵 AI。
同时，万鹏飞还对未来发展做出了展望，他表示，视频天生效果的提升速率非常快，正在逐步靠近图形渲染和相机拍摄，将会对泛视频行业带来新的机遇。

万鹏飞

实在我们已经见识过了可灵 AI 的能力，前文展示的高画质版、首尾帧掌握和相机镜头掌握新功能正是可灵 AI 在电影级高清画面天生、领先图生视频效果和精良视频天生可控性三大能力上的进一步蜕变。

个中电影级的高清画面天生能力能够高保真、生动地呈现壮阔的自然风光、人或动物的动作和表情等伟大或细微的场景，大片感十足。

领先的图生视频能力可以让静态图像动起来，转换为生动的 5 秒短视频。
同时搭配不同的文本输入，让图生视频更有创意且「为所欲为」。

比如将小狗拍浮的图像转换为视频：

效果是这样的：

精良的视频天生可控性让更加风雅的视频创作掌控在用户手中。
除了这次的相机镜头掌握之外，可灵 AI 未来还将在语音面部匹配、人物 ID 保持、通过大略笔画提示掌握画面和布局的演进等更多方面实现可控调度。
目前模型的演习已经完成，这些功能很快就会上线。

与此同时，可灵 AI 在运动天生、天生时长、物理规律、指令相应等其他四大能力上也进一步升级。

其一可灵 AI 具有大幅度且合理的运动天生能力。
通过建模繁芜的时空运动，可灵 AI 可以天生较大幅度的运动，并符合运动规律。

这次得益于更充分的模型演习，可灵 AI 天生的整体运动效果更加灵动，支持更大动作范围的同时合理性也没有削弱。
如下小猫的转身、走路姿势等都刻画地非常自然合理，符合物理事实。

其二是分钟级的长视频天生能力。
现在，分钟级时长已成为评价一个视频天生模型的主要指标，这哀求更有效的多镜头处理、更长的故事讲述以及更连贯同等的运动扩展能力。

目前，可灵 AI 能够天生数分钟的 1080p、30fps 视频。
同时开放了遵照用户指令的视频续写功能，单次续写让视频运动延时 4 到 5 秒，还支持连续多次续写，最长可以天生 3 分钟的视频，并且续写时能够指定故事后续发展方向，易用性拉满。

这次升级后，可灵 AI 在算法和工程层面进行告终合深度优化，使得单次天生的视频长度从 5 秒提升到了 10 秒，在对用户开放利用的产品中实现最永劫长，可以呈现更加完全的故事线，为用户供应了更广阔的创作空间。

其三可灵 AI 能够仿照繁芜的物理天下特性。
自 Sora 以来，各家视频天生模型都非常看重天生符合物理规律的视频，这决定了模型能力的上限。

可灵 AI 在发布之初就能够准确地建模和仿照现实天下的属性，让天生的视频靠近真实，比如给小猫沐浴。

现在，在更充分模型演习的加持下，可灵 AI 对交互式物理规律的建模和仿照能力又上了一个台阶。

其四可灵 AI 的观点组合和指令相应能力非常强。
在技能实现上，通过对文本到视频跨模态语义的深刻理解，可灵 AI 能够将用户丰富的想象力轻松转换为详细的视频画面，放飞脑洞，比如咖啡杯火山。

升级后的可灵 AI 接管了效果更优的文本数据和编码方案，自然而然对用户提示词的相应能力得到增强，视觉渲染效果更好了。

所有这些能力又源于可灵 AI 在视频天生技能路线（采取 DiT 架构）、模型设计（如隐空间编解码、时序信息建模、文本扩展及编码）、数据保障（如多维度标签体系、视频描述模型）、打算效率（如分布式演习集群、分阶段演习策略）、能力扩展（如视频时序延展、多模态输入可控）等方面的技能积累和独到创新。

可以说，如今的可灵 AI 在技能层面做到了前辈且靠谱，怪不得技能一落地就受到了人们的追捧。

天生式 AI 时期，快手有备而来

过去一年多的韶光里，全体大模型领域可以说是非常的卷。
去年都在谈基座模型的研发，今年大家又都在谈论运用。
最近几天 WAIC 大会开幕，我们又目睹了一波「模型派」和「运用派」之间的辩论。

在这波浪潮中，快手又是怎么做的？

首先，它玩的是体系。
从底层的 IDC 算力中央到网络架构、AI 平台，到中层的根本核心大模型，再到运用层的各种运用探索，快手实现了全套自行研发。
在谈到该体系时，快手副总裁大模型团队卖力人张迪认为，武断投入自主研发长期来说会带来「技能雪球」效应以及巨大的本钱上风。
快手一个非常大的上风便是在上层拥有大量的 AI 运用处景，这将给大模型带来非常多的落地机会。

张迪

整体框架是这样：

其次，快手坚持走根本模型技能研究和商业运用落地并举的计策。
根本模型决定了 AI 能力的上限，研究投入的量变可以引发质变；另一方面，商业化运用能够滚起技能的雪球，把新技能阶段性投入运用，不断收成反馈，才能逐渐形成良性循环。

去年开始，快手提出了「快意」大模型（KwaiYi），很快从早期的 13B 参数量发展到了 175B，并推出了多模态版本。
在多个版本的迭代后，快意大模型已经在快手内部的素材创作、AI 互动、内容生产等场景中开始发挥浸染，在今年 6 月，基于快意的 AIGC 营销素材单日花费超过了 2000 万。

有了根本模型，在更多的场景上，快手逐渐发展出了自己的差异化能力。

详细来说，在文生图上，快手的「可图」已成为行业内顶尖的模型之一，拥有强大的语义理解和指令跟随能力。
得益于在文本表征方面的创新，以及图像数据对齐的大量事情，可图可以画出摄像级的画面质感，经由强化学习的演习，审美也和人类的普遍标准实现了对齐。

而在视频的天生上，「可灵 AI」燃起了环球视频天生领域的新一轮竞争。
它可以进行文生视频、图生视频，又具有丰富的图像编辑能力，在视频天生的可控性、质感、美感、运动合理度方面保持业内精良。
快手的工程师们正在持续进行工程算法的优化，力争不断降落视频天生 AI 的门槛。

说到打下门槛，新技能的优化是当前天生式 AI 面临的主要寻衅之一。
作拥国民级短视频运用，快手的上风在于拥有大量 AI 运用处景，这就给落地实践带来了场景和机会。

在技能落地上，快手实现了一系列里程碑：

快手在 APP 评论区内测的对话模型运用「AI 小快」，可以理解视频中的内容并与你互动，至今已经累积了超过 1000 万的粉丝量。
在电商的直播间里，利用文生图 AI「可图」的能力，老铁们也可以用自己的生活照快速试衣，乃至看到动态展示。
视频天生模型「可灵 AI」自发布以来得到了用户的广泛认可，已经累计天生了 700 万条视频，开放了一站式内容创作平台。
从内容的生产、理解到推举平分歧层面，从个人再到电商，快手的天生式 AI 能力已经做到了对付主体业务的全覆盖，持续推进着快手生态的不断发展。

末了还有新的考试测验。
在 WAIC 上，快手预报说首部 AIGC 短剧《山海奇镜之劈波斩浪》将在本月正式发布。

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650925433&idx=1&sn=970d6ea088f5c7c1b9f2b46371b872d1&chksm=84e42d07b393a411fe24bdd61d670ad31e035a72c89d658d3d6acbc77d0d7ea90a1c7469b206&token=761964394&lang=zh_CN#rd

该剧由可灵 AI 供应深度技能支持，以赛博风格来复现山海经里的上古神话天下。
从预报片来看，山脉到海洋、森林到天涯等场景都呈现出了震荡的视觉效果。
在以往，如此效果可能须要专业的殊效团队，现在，视觉天生 AI 就能带来震荡的视觉体验了。

没错，半年前我们还在畅想未来，现在 AI 真的开始拍电影了。

当前大模型的浪潮中，最能证明技能能力的莫过于大规模落地。

而快手全方位的实践让我们再次确认：AI 的生产力已在不知不觉间，改变着我们的生活。

每期AI知识网

70万人争先体验视频生成新王者可灵AI又双叒进级了

AI在用又丑又萌ReminiWink搞定最火黏土风vlog

腔镜手术机械人脑控外骨骼康复系统神经外科手术显微镜这里有来自上海交大年夜的10个医疗科技项目

每期AI知识网

70万人争先体验视频生成新王者可灵AI又双叒进级了

AI在用 又丑又萌ReminiWink搞定最火黏土风vlog

腔镜手术机械人脑控外骨骼康复系统神经外科手术显微镜这里有来自上海交大年夜的10个医疗科技项目

AI在用又丑又萌ReminiWink搞定最火黏土风vlog