AI天生的乔布斯,他仿佛从画中醒来,对着镜头侃侃而谈ChatGPT,嗓音也颇似原声。

据作者“汗青”先容,视频中的文案选自于他与ChatGPT的对话,乔布斯的形象由AI作图工具Midjourney天生,AI拟声工具ElevenLabs供应了嗓音复刻,末了通过AI视频工具D-ID将图像转为视频。

借助类似的AI工具,网友用“邪术”天生的纸片人都能动起来了,乃至还能轻松创造一个自己的数字分身。

AIGC降落了创作门槛,越来越多的人正试图让AI参与内容创作,从文案、录制到配音、剪辑,险些可以让AI全包了。
据国外商业咨询机构Acumen Research and Consulting预测,若考虑下一代互联网对内容需求的迅速提升,2030年AIGC市场规模将达到1100亿美元。

别玩ChatGPT了更酷炫的AI视频创尴尬刁难象来了

近年来,AI对话、AI绘画、AI语音技能实在都有一定的发展,而相对来说,视频领域的AI模型研发和运用才起步不久。
像D-ID这样仅需一张静态图片就能创建虚拟人视频的技能,属实令人惊奇。

目前国内外有哪些AI视频创尴尬刁难象?AI又将给视频内容生产和交互体验带来什么改变?本文对此进行了盘点和剖析。

AI拼接素材,套上模板秒出视频

一样平常视频创作包括这些环节:写脚本/文案,拍摄视频或探求第三方素材,剪辑素材,配音,配乐,添加转场、殊效、字幕、标题、封面图等。

个中,AI现在已经可以赞助完成很多任务了,比如图文智能匹配视频素材、AI自动剪辑、AI抠像、AI换脸、画质优化修复。

“图文成片”的功能在各平台推出的剪辑运用中十分常见,抖音的剪映、快手的快影、百度的百家号、B站的必剪都支持根据文案,一键拼接图片和视频素材,并同步天生字幕和配音。

输入的文案可以参考AI助手的回答。
举个例子,“养猫会对一个人产生什么影响”,ChatGPT回答说养猫能减压缓解焦虑、增强社交能力、提高生理康健、增加运动量,我们可以在此根本上进行修正再导入剪映。

剪映不到一分钟就自动天生了视频,画面跟文案内容基本符合。
如果对素材不满意,比如想把静态图片换成视频,可以到在线素材库中搜索更得当的进行更换。

值得把稳的是,这些素材每每来源于网络或第三方做事,比如免版权图库Unsplash、Pexels,AI剪辑运用所做的是通过AI和机器学习对文案进行语义剖析,分镜头处理,智能匹配相应的画面。

因此,一键图文成片对创作者最大的帮助是节省搜集素材的韶光,减少人工剪辑劳动量,通过自动化、模板化的办法提高视频生产效率。

类似的视频自动剪辑工具还有“Lumen5”,主打长图文转视频,供应了大量视频模板,操作上门槛更低,像制作PPT一样拖曳笔墨即可转成画面。
Lumen5自2017年推出至今,官网先容已有超100万家企业客户将其浸染于社交媒体营销和传播。

图源Lumen5

“vidyo”出自于印度的AI初创团队,支持长视频转短视频,通过AI语音识别技能可以从素材中自动剪辑出精彩片段,适用于直播视频切片、播客剪辑,不过目前视频措辞仅支持英文。

图源vidyo

只管目前视频创作软件的AI功能以笔墨匹配视频素材为主,但之后可能会加入更多AIGC工具。

例如外洋的AI视频工具“Fliki”,善于短图文转视频,输入Twitter等博客链接即可快速天生短视频,在图片素材上它还供应笔墨天生AI图像,由DALL·E供应技能支持。

图源Fliki

“Copydone”出自于海内AIGC初创公司,支持小红书、淘宝等各平台AI营销文案天生,同时也能根据文案自动天生配图或拼接视频。

图源Copydone

外洋AI视频网站“QuickVid”集成了GPT-3、DALL·E 2等AI天生图文的能力,用户只需给定一个视频主题,剩下的都可以自动天生。
不过它在二次编辑上的自由度和丰富性比较有限。

图源QuickVid

此外,视频创作中的特定需求也可以考试测验用AI实现。
比如AI修复老视频已有很多热门案例,历史资料、从前的影视片段都能通过“Video Enhance AI”等视频增强软件提升画质和分辨率。

图源B站

让照片说话,跨模态AI做到了

现在的AI只能算是赞助视频创作的小助手,如果想要原创度更高、从无到有地快速创作视频还比较困难,但更强大的跨模态天生视频的模型(例如笔墨天生视频,图像天生视频)已经在路上了。

笔墨天生视频,除了从已有素材库中拼接而成,实际上还有更靠近于人类的事情办法,就像AI绘画模型一样学习文本和图像的抽象观点。

2022年5月,清华大学曾联合智源研究院发布“CogVideo”,这是海内首个开源的文本天生视频模型。
在其Demo网站中,选择“青年女子在餐厅里喝奶茶”就可以看到AI天生的4秒视频,分辨率为480×480。

图源CogVideo

在设计模型上,CogVideo含94亿参数,将预演习文本-图像模型(CogView2)有效地利用到文本-视频模型,并利用了多帧率分层演习策略。

CogVideo天生的32帧的4秒剪辑

从技能实质上来看,视频便是一帧帧的连续图像,AI笔墨天生视频也可看作笔墨天生图像的一种延伸。
大致事理便是通过文本天生几个单帧的图像,再用插值算法在几个帧之间绘制图像,天生前后连贯的视频。

之前Disco Diffusion走红时就有玩家利用其动画模式天生2D或3D视频,由此也延伸出一些利用门槛更低、创作更简便的AI天生视频运用。

比如AI视频网站“Kaiber”,用户输入图像或文本描述,也可以从预设中选择几个词,就能快速天生4种视频结果。

图源Kaiber

近期美国盛行摇滚乐队Linkin Park发布的新MV《Lost》,便是由Kaiber为其制作的动画。

图源《Lost》

不过目前跨模态天生视频的AI模型仍处于探索阶段,谷歌、Meta等大厂去年都发布了干系研究论文,只有演示案例,详细产品还未上线。

据Meta官网先容,“Make-A-Video”加速了文本到视频模型的演习(它不须要从头开始学习视觉和多模态表示),也不须要成对的文本-视频数据,却可以实现丰富的笔墨天生视频,图像天生视频(让单个图像或两个图像间动起来),以及改变原始视频的风格。

图源Make-A-Video

谷歌发布的“Imagen Video”和“Phenaki”也能实现类似以上的效果,并且Phenaki可以根据一系列提示天生2分钟以上的长视频。

太空行走的烟花

利用的提示:

宇航员穿过火星上的水坑的侧视图

宇航员在火星上舞蹈 宇航员

在火星上遛狗

宇航员和他的狗看烟花

图源Phenaki

人工智能公司Runway曾参与构建了第一个版本的Stable Diffusion,最近他们又发布了一个新的视频天生器“Gen-1”,即将开放内测,流传宣传可以把视频转换成任意风格。

根据Gen-1官网演示,用户供应一张参考图,就能对原视频进行指定风格化的渲染,或者用笔墨指示修正视频中的部分素材,乃至还可以输出3D模型渲染和定制视频。

图源Gen-1

在AI天生3D短视频方面,近期海内的深氧科技完成了千万元级天使轮融资,引入GPT3.5、Transformer、Diffusion Model等AI技能红利,其发布的O3.xyz引擎V1.0版本支持一站式天生3D短视频内容,百万粉博主“殊效卡卡西”等创作者已加入内测。

可见跨模态AI天生视频正在加速发展中, “用嘴做视频”,未来在短视频、影视、设计、游戏、电商等诸多行业都存在运用的可能。

回到开头提到的“D-ID”,天生数字人/虚拟分身也属于图像天生视频的一种类型,这类工具目前在企业培训和营销方面的运用案例比较多。

2020年推出的AI视频创作产品“Synthesia”显示已有数千家公司在利用,用户可以从现有演员库中选择或上传自己的视频来创建AI形象,然后输入脚本,让AI配音、拼接素材就能输出视频了。

图源Synthesia

Synthesia通过演习神经网络来达成逼真的合成效果,比较传统视频制作来说,减少了真人出镜录制等环节,能节省制作用度和周期,而且能一键天生多国措辞的视频,便于本土化做事。
因此,企业多用于大规模天生员工培训、产品入门演示、市场营销等视频。

D-ID则在更早以前就开始研发图像处理技能,曾与MyHeritage互助推出“深度怀旧”操持而有名,借助AI工具,用户可以让已故亲人的静态照片变成维妙维肖的动态视频。

最近乘着ChatGPT的热潮,多种AI工具组合制作的视频被更多人瞥见了,D-ID的体验门槛较低,纵然是不懂视频创作的新手,只要上传一张图片,几分钟内就可以天生有人物讲授的视频。

图源D-ID

D-ID自动为人物添加了一系列面部动作,会仿照一些轻微的头部运动,不过有时表情显得有点怪异,太逼真的照片可能会令人产生“胆怯谷”的反应。

同时,用户无法上传涉及政治、性、犯罪、名人、歧视性图像,D-ID会提示违规风险。
这意味着AI天生视频技能同其他天生内容一样会面临版权、伦理等问题。

下一波AIGC浪潮,我们如何应对

去年Stability AI的CTO Tom Mason曾判断,继笔墨天生图像后,下一波浪潮肯定是视频、音频和3D。

当AI可以写文章、画画、做视频,试图经办大部分创作任务时,人类接下来该做什么呢?

这里仅谈谈我的思考,首先技能职员可以连续开拓和完善AI模型。
在TikTok的官网上,已经挂出了AIGC方向机器学习工程师的招聘需求。

图源TikTok Career

TikTok表示,“AIGC最近的打破使我们相信可以将AIGC技能用于商业目的,尤其是创意制作。
想想AI天生/赞助的广告创意脚本,乃至是AI天生的商业图像和视频,它们将永久改变创意制作行业。

当下的AI视频模型还不能很快天生像AI绘图那样高质量的作品 ,比如存在视频模糊、动作不自然、短缺细节等问题。
但随着海内AIGC的技能发展,干系场景运用生态可能有很大的想象空间,包括上文提到的一些AI技能公司目前已经开始供应付费做事了,为个人和企业有针对性地提高内容生产效率。

对付内容创作者来说,与其担忧会不会被AI取代,不如去学习认识和利用AI工具,让AI代替重复性的噜苏事情,将更多韶光花在自己的核心上风上,产生更高质量的内容。

的确有了AI的加入,内容竞争会愈发激烈。
有创作者说D-ID涌现后,“所有念稿式、新闻播报式的纯搬运类视频都将受到巨大冲击”。

从用户角度出发,我想只假如高质量内容,纵然是AI批量天生的又如何?我们担忧的实在是低质内容的泛滥。

平台和用户都须要避免AI被滥用,比如天生虚假、仇恨、歧视或有害的内容,乃至是引发诱骗等犯罪行为。
谷歌曾提到出于安全和伦理的考虑,在Imagen Video的内部试验中运用了输入文本提示过滤和输出视频内容过滤,但目前仍存在主要的干系风险,暂时不会发布两个视频天生模型的代码或Demo。

总之,AI技能一方面大大降落了从文本到视频内容创作的门槛,另一方面AIGC也推动着内容行业改造,目前至少能达到一定程度的降本增效,但发展初期还未建立起新的规则和秩序,终极如何改变行业还得看人的浸染。

P.S.:本文提及的部分AI视频工具网址,可以关注“ 新榜 ”,在公众年夜众号对话框回答“ AI视频 ”获取。