继文本天生、图像天生后,视频天生也加入到了“内卷”行列。

7月26日的智谱Open Day上,在大模型赛道上动作频频的智谱AI,正式推出视频天生模型CogVideoX,并放出了两个“大招”:

一个是智谱清言打造的视频创作智能体清影,可利用文本或图片天生时长6秒、1440x960清晰度的高精视频。

另一个是智谱清言小程序上线的“让照片动起来”,可以直接在小程序中上传照片,输入提示词天生动态视频。

智谱AI再放大年夜招30秒将随便率性文字生成视频

不同于一些小范围开放或预约才能利用的产品, 清影智能体面向所有用户开放,输入一段提示词,选择自己想要的风格,包括卡通3D、黑白、油画、电影感等等,配上清影自带的音乐,就能天生充满想象力的短视频。
企业和开拓者也可以通过调用API的办法,体验文生视频和图生视频能力。

由此引出了这样一个问题:目前视频天生类产品仍处于“可玩”的阶段,间隔商用仍旧有不小的鸿沟,智谱AI的进场将产生什么样的影响?

01 更快更可控的“清影”

在Sora引爆视频天生赛道后,行业内掀起了一场连锁反应,先是Runway、Pika等产品在外洋市场走红,海内涵4月份往后也陆续曝光了多个文生视频类大模型,险些每个月都会有新产品上线。

市场层面越来越热闹,体验上却陷入了相似的困局,确切的说是两大绕不过去共性问题:

一是推理速率慢,哪怕只是4秒的视频,也须要10分钟旁边才能天生,而且视频越长,天生的速率越慢;

二是可控性差,在限定的语句和限定的演习样本内,可以有不错的效果,一旦“越界”就会涌现“群魔乱舞”的情形。

有人将其比作为游戏中的“抽卡”,多试几次才会天生想要的效果。
然而一个无法粉饰的事实是,倘若文生视频要考试测验25次才能天生一次可用的,每次天生的韶光动辄10分钟,意味着想要得到一条几秒钟的视频,须要长达四个多小时的韶光本钱,所谓的“生产力”也就无从谈起。

在智谱清言里试用了“清影”的文生视频和图生视频功能后,我们创造了两个令人惊艳的体验:天生一条6秒的视频,只须要花费30秒旁边,推理韶光从分钟级被压缩到了秒级;采取“镜头措辞+建立场景+细节描述”的提示词公式,一样平常“抽两三次卡”就能够得到让人满意的视频内容。

以文生视频的场景为例,给“清影”输入“写实描述,近间隔,猎豹卧在地上,身体微微起伏”的指令后,一分钟内就天生了一段“以假乱真”的视频:风吹动草地的背景,猎豹不断晃动的耳朵,随着呼吸起伏的身体,乃至每一根髯毛都维妙维肖……险些可以被误认为是近间隔拍摄的视频。

为什么智谱AI可以“跳过”行业内普遍存在的痛点?由于所有的技能问题,都可以通过技能上的创新办理。

隐蔽在智谱清言视频创作智能体“清影”背后的,是智谱大模型团队自研打造的视频天生大模型CogVideoX,采取了和Sora一样的DiT构造,可以将文本、韶光和空间领悟。

通过更好的优化技能,CogVideoX的推理速率较前代模型提升了6倍;为了提升可控性,智谱AI自研了一个端到端视频理解模型,为海量的视频数据天生详细的、贴合内容的描述,以增强模型的文本理解和指令遵照能力,使得天生的视频更符合用户的输入,并能够理解超长繁芜prompt指令。

如果说市情上的同类产品还在“可用”高下功夫,创新上“全垒打”的智谱AI已经进入了“好用”的阶段。

直接的例子便是智谱清言同步供应的配乐功能,可以为天生的视频配上音乐,用户须要做的仅仅是发布。
无论是没有视频制作根本的小白用户,还是专业的内容创作者,都可以借助“清影”让想象力化为生产力。

02 Scaling Law再次被验证

每一次看似不屈常的背后,都有其一定性。
在同类产品要么不开放利用,要么还处于阿尔法版本的阶段,“清影”之以是成为大家可用的AI视频运用,离不开智谱AI在频天生大模型上的多年深耕。

韶光回到2021年初,间隔ChatGPT的走红还有近两年韶光,诸如Transformer、GPT等名词只是在学术圈谈论时,智谱AI就推出了文生图模型CogView,可以将中文笔墨天生图像,在MS COCO的评估测试中超过OpenAI的Dall·E,并在2022年推出了CogView2,办理了天生速率慢、清晰度低等问题。

到了2022年,智谱AI在CogView2的根本上研发了视频天生模型CogVideo,可以输入文本天生逼真的视频内容。

彼时外界还沉浸在对话式AI的场景中,视频天生并不是焦点话题,但在前沿的技能圈里,CogVideo已经是炙手可热的“明星”。

比如CogVideo采取的多帧率分层演习策略,提出了一种基于递归插值的方法,即逐步天生与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到终极的视频片段,授予了CogVideo掌握天生过程中变革强度的能力,有助于更好地对齐文本和视频语义,实现了从文本到视频的高效转换。

Meta推出的Make-A-Video、谷歌推出的Phenaki和MAGVIT、微软的女娲DragNUWA以及英伟达Video LDMs等等,不少视频天生模型都引用了CogVideo的策略,并在GitHub上引起了广泛关注。

而在全新升级的CogVideoX上,诸如此类的创新还有很多。
比如在内容连贯性方面,智谱AI自研了高效三维变分自编码器构造(3D VAE),将原视频空间压缩至2%大小,合营3D RoPE位置编码模块,更有利于在韶光维度上捕捉帧间关系,建立起视频中的长程依赖。

也便是说,视频创作智能体“清影”的涌现绝非有时和奇迹,而是智谱AI日拱一卒式创新的一定结果。

大模型行业有一个著名的定律叫Scaling Law,即在不受其他成分制约时,模型的性能和打算量、模型参数量、数据大小呈现幂律关系,增加打算量、模型参数量或数据大小都可能会提升模型的性能。

按照智谱AI官方给出的信息,CogVideoX的演习依托亦庄高性能算力集群,而且互助伙伴华策影视参与了模型共建、另一家互助伙伴bilibili参与了清影的技能研发过程。
沿循这样的逻辑,“清影”在天生速率、可控性上超预期的体验,无疑再一次印证了Scaling Law定律的有效性。

乃至可以预见,在Scaling Law的浸染下,后续版本的CogVideoX,将拥有更高分辨率、更永劫长的视频天生能力。

03 “多模态是AGI的出发点”

一个可能被习气性忽略的信息在于,智谱AI并没有将“清影”作为独立的产品,而因此智谱清言的智能体上线。

个中原因可以追溯到智谱AI CEO张鹏在ChatGLM大模型发布会上的演讲:“2024年一定是AGI元年,而多模态是AGI的一个出发点。
如果想要走到AGI这条路上去,只勾留在措辞的层面不足,要以高度抽象的认知能力为核心,把视觉、听觉等系列模态的认知能力领悟起来,才是真正的AGI。

5月份的ICLR 2024上,智谱大模型团队在主旨演讲环节再次阐述了对AGI技能趋势的判断:“文本是构建大模型的关键根本,下一步则该当把文本、图像、视频、音频等多种模态稠浊在一起演习,构建真正原生的多模态模型。

过去一年多韶光里,大模型的热度一浪高过一浪,却未能摆脱“缸中大脑”的局限,运用处景十分有限。
而大模型想要脱虚向实,想要走进实际的生活和事情中创造代价,必须要长出手脚的实行能力,比如在措辞能力外延伸出听觉和视觉的能力,并通过这些能力和物理天下进行无缝连接。

再来核阅视频天生大模型CogVideoX和视频创作智能体“清影”,无疑可以得出一些不一样的答案。

CogVideoX的文生视频、图生视频能力,可以看作是对认知能力的拆解,先实现单项能力的打破;以视频创作智能体形态涌现的“清影”,可以看作是对不同模型能力的收拢,在原生多模态大模型还不太成熟的情形下,用户可以通过多个智能体的组合,高效且精准地办理现实问题。

可以佐证的是,在智谱AI的大模型矩阵里,已经涵盖具备视觉和智能体能力的GLM-4/4V、推理极速且高性价比的GLM-4-Air、基于文本描述创作图像的CogView-3、超拟人角色定制模型CharacterGLM、善于中文的向量模型Embedding-2、代码模型CodeGeeX、开源模型GLM-4-9B以及视频天生大模型CogVideoX,客户可以根据不同的需求调用不同大模型,找到最优解。

而在To C运用方面,目前智谱清言上已经有30多万个智能体,包括思维导图、文档助手、日程安排等出色的生产力工具。
同时智谱AI还推出了由数十万个AI体组成的多智能体协作系统——清言Flow,不仅限于单一智能体的交互,涉及多轮、多态、多元的对话交互模式,人们仅需通过简洁的自然措辞指令,就能处理高度繁芜的任务。

做一个总结的话:现阶段间隔真正意义上的AGI还有不小的间隔,但智谱AI正在用“单项打破,能力聚合”的办法,提前让AGI照进现实,让强大的大模型能力真正用来帮助人们的事情、学习和生活。

04 写在末了

须要正视的是,目前视频天生大模型对物理天下规律的理解、高分辨率、镜头动作连贯性以及时长等,仍存在非常大的提升空间。

在通往AGI的路上,智谱 AI等大模型厂商不应该是孤独的行路者。
作为普通用户的我们,也可以是个中的一员,至少可以在智谱清言上用自己的“脑洞”天生有趣的视频,让更多人看到大模型的代价,利用AI提升创作效率的同时,加速多模态大模型不断走向成熟。