Sora的涌现,对人工智能的整体发展,到底意味着什么?
它能够为我们做哪些事情?
对教诲行业会带来哪些影响?
人类离通用人工智能(AGI)还有多远?
本文将和大家一起来理解基于AIGC的视频天生技能的事理,探索如何利用各种工具天生视频,让创意不断呈现。
2024年2月16日凌晨,OpenAI发布了一款“文生视频”的工具Sora,全体天下再次被震荡了。这也是ChatGPT掀起热潮时隔一年后,又一次史诗级的更新。
3月上旬,由50位AI领域艺术家组成的团队利用人工智能技能翻拍了90分钟的经典科幻电影《闭幕者2:审判日》,这部环球瞩目的电影,将对影视行业产生若何的颠覆性影响。从文本到图片,再到声音和视频,AIGC技能正以超乎人类想象的速率进化。
有人预见,Sora的涌现,可能意味着,通用人工智能(AGI)正在加速到来。接下来,我们一起来理解文生视频的发展进程、关键技能,磋商未来发展。
文生视频技能发展进程
天生视频的办法有很多,可以用摄像设备拍摄,用录屏软件录制,也可以用视频编辑工具制作天生,更可以通过输入提示语自动实现视频天生。前几种比较依赖设备和软件技能,末了一种紧张是依托模型算法,尤其是人工智能技能。
详细来说,文生视频是根据给定的文本描述、图片、视频等,自动天生符合场景需求的视频内容,如天生电影、电视剧、游戏中的虚拟场景、角色、殊效等,或根据原始影片天生电影预报片,根据产品笔墨先容天生视频广告等。
可以说,在当下视频创作生产领域,人工智能的引入能够成为创作体系下的前辈生产力,伴随着图形处理技能与硬件制程工艺的发达发展,人工智能技能在视频制作领域中的运用能力也在逐步扩大。
近年来,以Runway为代表的文生视频公司在不断呈现,互联网行业的巨子,如谷歌、Meta、微软,同样投入职员和精力参与个中,海内目前文生视频技能还处在初期发展阶段。
文生视频模型的发展经历了三个关键阶段:图像拼接天生阶段、GAN/VAE/Flow-Based天生阶段、自回归和扩散模型阶段。近年来,视频天生在画质、长度、连贯性等方面都有了很大提升。
第一,图像拼接天生阶段。在早期阶段,视频天生紧张基于图像技能,将每一帧静态图像拼接成一个连续的视频流。利用图像拼接合成视频的方法较为大略易用,但缺陷是天生的视频质量低,连贯性较差。
第二,GAN/VAE/Flow-based天生阶段。随着机器学习技能的发展,天生对抗网络(GAN)、变分自编码器(VAE)以及基于流的模型(F1ow-based model)开始被用于视频天生任务,这个阶段的发展紧张集中于改进模型演习和天生算法。
由于对视频直接建模的难度很高,一些模型通过将前景和背景解耦、运动和内容分解等办法天生视频,或基于对图像的翻译来改进天生效果,以加强连续帧之间的平滑过渡,但在总体效果上天生视频的质量仍旧不理想,难以实际运用。
第三,自回归和扩散模型阶段。随着Transformer、Stable Diffusion在措辞天生、图像天生领域取获胜利,基于自回归模型和扩散模型的视频天生架构逐渐成为主流,自回归模型可以根据先前的帧来预测下一帧,视频较为连贯自然,但存在天生效率低且缺点易积累的问题。
一些研究将扩散模型在图像天生研究中的成果成功迁移到了视频天生中,通过对图像天生架构的改进使其适应视频天生任务,这种方法的优点是天生的视频具有高保真的效果,但相应地也须要更多的演习数据、韶光和打算资源。
在这个阶段,由于算法的不完善,视频仍然不可避免地涌现跳帧征象,并存在内容表现的逻辑性欠缺等问题。
AIGC技能天生视频关键技能事理
视频内容实在是图像在韶光维度上的叠加,图片天生算法为动画内容的天生奠定了根本。
文本天生图像的热门模型有Midjourney、Disco Diffusion、Stable Diffusion、Dall·E2等。
其基本事理是在无监督预演习后,根据扩散模型去噪过程中的图像评估与文本的匹配度,勾引扩散模型天生最符合文本的图像。
为提高天生图像的准确度,模型每每支持文本描述与图片参考共同作为天生图像的标准。
AIGC技能可以用于快速天生短视频、宣扬片、动画片等视频内容。
通过图像天生算法和视频处理技能,可以自动天生具有特定风格和内容的视频作品。
此外,AIGC技能还可以用于视频修复、视频剪辑等领域,提高视频的质量和效果。
2019年谷歌发布的一项预测视频的人工智能技能——VideoBERT,将Transformer拓展到“文本——视频”领域,验证了Transformer预演习用于多模态学习的可行性。
2021年OpenAI提出的CLIP模型基于Transformer进行预演习,分别提取文本与图像的特色并进行比拟,得到“文本——图像”的相似度,使得两种不同模态的数据得到关联。
1.紧张模型先容
(1)自回归模型Auto-regressive Model
自回归模型(Auto-regressive Model)是采取Transformer进行自回归图像天生。
Transformer能够仿照像素和高等属性(纹理、语义和比例)之间的空间关系,利用自把稳力机制进行编码和解码。
采取该架构模型的文生图常日将文本和图像分别转化成tokens序列,然后利用天生式的Transformer架构从文本序列中预测图像序列,末了利用图像天生技能(VAE、GAN等)对图像序列进行解码,得到最终生成图像。
自回归模型的特点是稳定性好及天生图像的逻辑相对合理,这也是模型的上风所在。
(2)扩散模型Diffusion Transformer
扩散模型的事情事理是通过连续添加高斯噪声来毁坏演习数据,然后通过逆转这个加噪过程来学习规复数据。
演习后可以利用扩散模型来天生数据,只需通过学习到的去噪过程来通报随机采样的噪声。
扩散模型是一种潜变量模型,逐渐向数据添加噪声,以得到近似的后验。在原有语义分割模型的根本上,升级成了可伸缩性更强的Transformer。能够通过增加参数规模和演习数据量来快速提升模型的性能表现,模型在图片天生任务上也表现精良。
实践表明,该模型降落了对算力的需求,展现了良好的视频天生能力。
(3)时空图像块Spacetime Patch
视频实在是记录了时空信息的载体,时空碎片Patch可以看作是三维空间的点集(x,y,z)的运动(t),或者说实在是个四维时空模型(x,y,z,t)。
Sora和Lumiere之类的天生模型的第一步都是如何从中提取出相应的关键信息。
以Sora为例,能够将视频转换为多少个时空区块,并通过视觉块嵌入代码实现多镜头无缝切换。这使得天生的视频具有高度可扩展和有效的视频数据处理能力。
碎片Patch已经被证明是一个有效的视觉数据表征模型,且高度可扩展表征不同类型的视频和图像。
将视频压缩到一个低维的潜变量空间,然后将其拆解为时空碎片Spacetime Latent Patches。用户供应的图像或视频可以自然地编码为时空碎片Patch,用于各种图像和视频编辑任务。
2.AIGC文生视频技能
目前,AIGC技能在文本天生和图像天生领域已经取得了显著的成果。个中,ChatGPT、Google Bert、Stable Diffusion和Midjourney V5等模型已经被广泛运用于文本和图像天生方面,展现出了强劲的创作赞助能力和制作提效能力,也带动了视频创作与制作领域的创作形式和制作效率的惊人变革。
构建类似Sora的运用最主要的是针对视觉数据的建模,而碎片Patch已经被证明是一个有效的视觉数据表征模型。如图1所示,图像或视频可以自编码为时空碎片Patch,用于各种图像和视频编辑任务。
图1
Sora的涌现实在是在时空潜变量碎片长进修到了可视层面或者表面意义上的状态空间模型SSM(State Space Model),从而在视频天生上展现出强大的呈现能力:人和景物在三维空间移动同等性;长程韶光干系性与工具持久性,如一个事物被遮挡后也能够扩展重现,事物与周边天下的互动性,仿真数字天下等。
OpenAI认为,持续扩大视频模型的规模,将可以用来仿照全体物理和数字天下,毕竟它们纯粹是尺度的征象。
3.部分文本天生视频的模型
清华CogVideo,是首个开源的中文文本天生视频模型,基于自回归模型。该模型能够更好地对齐文本和视频剪辑,显著地提高视频天生的准确性,这种演习策略授予了CogVideo在繁芜语义运动的天生过程中掌握变革强度的能力。
基于预演习的文本天生图像模型:通过微调预演习的文本天生图像模型,节省了从头开始预演习的花费,提高了天生的效率。
字节MagicVideo,是字节跳动提出的一种基于潜在扩散模型的高效文本到视频天生框架,MagicVideo可以天生与给定文本描述同等的平滑视频剪辑。
MagicVideo的核心在于关键帧天生,通过扩散模型来近似低维潜在空间中16个关键帧的分布,结合具有高效的视频分配适配器和定向韶光把稳力模块的3D U-Net解码器,用于视频天生。
为了改进天生的视频中的像素抖动,MagicVideo提出了一种新颖的VideoVAE自动编码器,以实现更好重修。
谷歌Phenaki,由Google Research开拓制作,该模型是第一个能够从开放域韶光变量提示中天生视频的模型,能够根据一系列开放域文本提示天生可变长度的视频。
通过将视频压缩为离散令牌的小型表示形式,词例化程序利用韶光上的因果把稳力,许可处理可变长度的视频。
Phenaki是第一个可以通过一长串的文本描述并且可以随着韶光的推移而变革以天生长达2分钟连贯视频的模型。
利用工具,制作创意短片
AI天生能够为作品授予独特风格和想象力,为创作者供应灵感,合营高超的剪辑技巧和叙事能力,制作出超乎想象的效果。
随着算法、预演习模型和多模态技能的日益完善,越来越多的人工智能天生内容作品呈现出来。
目前,虽然Sora还不能利用,但我们也可以考试测验用以下工具来制作创意视频短片。
1.视频天生工具推举
在国外已经有不少精良的视频天生工具。
首先是Runway,一个强大的AI视频制作工具,绿幕抠像、视频合成等都可以实现。用户可以创建并发布预先演习好的机器学习模型,用于天生逼真的图像或视频等。
Runway发布的Gen-2模型许可用户从文本、图像和视频片段中天生视频内容。Runway已经被广泛运用于电影、电视与广告等领域,电影《瞬息全宇宙》背后的视觉效果团队利用了Runway的技能来帮助创建某些场景。
其次是Pika,一个AI视频天生和编辑工具,是由美国AI初创公司Pika labs在2023年11月发布的。
用户只需输入笔墨或图像,即可快速天生3D动画、动漫、卡通、电影等风格的视频。
再次是Pictory,一个基于人工智能的在线视频制作编辑器工具,可以帮助用户快速、大略、高效地制作各种类型的视频。基于强大的AI技能和丰富的素材库,就可以轻松创建专业品质的视频,并分享到各个社交媒体平台上。
在海内也有很多值得期待的产品。
首先是剪映,它是2019年由字节跳动旗下的一家公司推出的短视频编辑工具。剪映具有图文成片功能,用户只须要输入笔墨,就能够自动天生文案,选择声音后就能够天生图文和音乐结合的视频,非常方便。
其次是智影,它是腾讯出品的一个云端智能视频创尴尬刁难象,无需下载安装,只需通过浏览器访问,就可以在线视频剪辑和制作。
腾讯智影基于人工智能技能打造的智影数字人播报能力,以及联合更多腾讯AI能力推出的素材管理、AI文本配音、自动字幕识别、文章转视频、去水印、视频讲授、横转竖等功能,帮助用户更好地进行视频化的表达。
再次是近期由阿里巴巴团队发布的天生视频模型EMO(Emote Portrait Alive),用户输入一张参考图和声音,该框架就能够天生具有丰富面部表情和头部姿势的声音肖像视频,以及实现无缝对接的动态小视频,最永劫光可达1分30秒旁边。
2.视频天生工具体验
下面,以“剪映”为例,演示自动天生视频。
①利用“图文成片”功能,输入主题,如“小学生开学了”,选择文章想要表达的话题种别,如“学习发展、知识海洋”,再选择“视频时长”,如“1~3分钟”,然后点击下方的天生文案按钮,就会自动天生右侧的文案内容(如图2)。文案可以选择不同风格,并进行修正。
图2
②在确定文案后,选择不同类型的音色和天生视频的办法就能够自动天生视频了。
③等待一会后,剪映就会自动天生一个完全的视频,字幕、图像、配音、背景音乐等一应俱全,且适配度较高(如图3)。我们还可以利用剪映的强大编辑功能,做进一步修正完善。
图3
Sora等技能对教诲的影响
Sora等AIGC技能的发展如此迅猛,冲击着各行各业。作为教诲事情者,笔者不禁思考,Sora等技能会给教诲带来哪些影响?
对西席而言,Sora等技能带来的影响有:
①增强教诲资源天生效果。面对呆板生硬的知识内容,西席以往只能通过笔墨、措辞或者形体动作来阐释,厥后果明显受限。而AIGC天生视频技能能够用较短的韶光展现全景逼真的效果,给学生带来完备不一样的体验,也一定增强传授教化效果,同时,天生的海量资源也将成为西席的传授教化宝库,帮助其丰富传授教化内容,提高传授教化效果。
②降落教诲资源制作本钱。Sora等技能不仅使得不同地区、不同层次的学校都能打仗到高水平的传授教化视频,还将深刻影响传统的传授教化方法和理念。西席可以利用文生视频模型的海量资源来引发学生的探究精神和创造力,提高学习效率,这样不仅可以引发学生的学习兴趣和动力,还可以帮助他们更深入地理解和节制知识。
对学生来说,Sora等技能带来的影响有:
①高效展示学生天生作品。学生内心每每有很好的创意想法,但受限于工具和表现能力不能很好地表达,视频天生技能只需输入少量笔墨就可以展示全景效果,让创意快速成为现实。
②轻松实现个性化沉浸式学习。根据学生的学习特点和进度,多模态智能对话,推举适宜的学习资源和学习路径,实现因材施教。
此外,Sora等技能也将冲破时空界线,让优质教诲资源得以共享,更好更快地实现教诲公正;
改变教诲和学校的形态,使得学习和互动将会无处不在;
冲破学校的物理边界,让西席和学生足不出户也能进行沉浸式学习和互换。
思考与展望
面对Sora等技能的冲击及其对教诲的影响,我们也要把稳到技能带来的诸多问题。
首先是版权问题,AIGC模型进行学习、演习的样本库来自网络大量的数据信息,天生内容是基于样本信息的再创作。
虽然部分模型官方以付费办法出售天生内容的利用版权,但对付样本的原作者是否构成侵权却无法界定,还短缺明文条例用以解释AIGC的版权问题。
依照其快速发展的趋势,我们期望未来能够完善系统编制,以保障原创者的权柄。
其次是安全问题。AIGC追求还原真实性,若有可能被不法分子利用天生违法信息、宣扬虚假内容会造成严重后果。
因此,模型供应方需筛选文本敏感词汇,产出数据也须要第三方合理监管、跟踪。
还有一个更为主要的问题是人工智能教诲问题,人类如果无法节制人工智能技能,那将更为恐怖。
面向未来的人工智能教诲是大势所趋,我国一贯非常重视人工智能教诲,大力提倡在中小学、高校开设人工智能课程。
我们可喜地看到,南京大学在2月27日发布了2024年9月面向全体新生开设的“人工智能通识核心课程体系”总体方案,拟培植“1+X+Y”三层次的课程体系,学生经由系统的学习和演习,知足一定条件,可以得到人工智能专业修读证书。我们可以期待,这样的课程方法越来越多。
随着Sora等技能的发展,AIGC技能将成为未来媒体行业发展的主流趋势,新技能正在助力媒体领悟转型迭代,措辞大模型对行业的影响还会加剧,当然也包括教诲领域。
总之,大胆地去做吧,你只管出点子、给提示,AIGC视频天生技能会让你的创意不断呈现。
本文作者:
倪俊杰
杭州师范大学经亨颐教诲学院
浙江省桐乡市凤鸣高等中学
文章刊登于《中国信息技能教诲》2024年第07期
引用请注明参考文献:
倪俊杰.让创意不断呈现—AIGC视频天生技能运用[J].中国信息技能教诲,2024(07):69-73.