回过分来想想,也便是从去年初开始,AI的利用门槛大幅低落,大措辞模型、图像和音视频天生技能逐渐横扫了互联网内容生态,综合了各项能力的数字人技能自然也随着飞速发展和商业化,到前阵子刘强东数字人直播达到了舆论的高峰。

封面形象通过midjourney天生

时至今日,如果是精心制作的形象和声音模型,普通人基本已经无法分辨出那到底是真人还是数字人了,年初开始就已经有很多人开始用数字人特殊是外洋数字人装外国朋侪搞钱,底层逻辑也便是用“外国美女”“外国专家”这种自带流量属性的IP来变现,在平台整治、大厂和超级个体参与竞争以前的这几个月,数字人这个赛道确实值得好好深挖一下,现在走的流量玩法实在还是比较低级(当然也可能是高真个玩法没让咱知道,咱也玩不起)。

废话讲了一堆,这篇文章紧张还是来先容一下怎么制作一个能定制形象和声音的外洋数字人(市情上很多千篇一律的数字人,也有很多用官方模板做的,这种肯定会被限流),这个便是我两天的零星韶光搞出来的粗糙成品。

重磅干货手把手教你制作一个海外数字人

在开始之前,涉及到的工具如下:

一台电脑和一台手机(最好有邪术,没有也勉强)音视频处理工具(我用的剪映和配音神器,用自己熟习的就好)数字人平台(我用的飞影)一个好用的大措辞模型(非必要,但能提效)

第一步:准备数字人制作素材

做数字人最主要的便是模型制作,而模型制作紧张包括了三部分素材

主体和环境素材

我们要做外洋的形象,那么国外的视频网站都可以,但要把稳规避侵权的问题,不要选取明星或者有名网红来当素材,这里的建议:

选粉丝数不高的,即便我们后续会做换脸,也还是尽可能避免产生不必要的轇轕人物形象和画面构造符合你要做的内容方向,比如我要做个育儿类型的形象,我不可能选年轻小姐姐来作为主体声音要清晰、画质也要清晰

选好了工具怎么导出?这个市情上有一些处理工具,但我嫌麻烦就直接用手机录屏了,如果不须要批量获取素材的话,录屏还挺方便的。

第一次的话,录屏韶光30s-1min就差不多了,韶光更长理论效果会更好,但天生韶光更长本钱更高,没必要。
把稳要对素材进行预处理,把有遮挡或者大幅度镜头变革的片段剪掉,我是录屏的时候直接就选了没有任何遮挡的视频片段,也就不须要做预处理了。

脸部素材

可能有人问,上面的视频不是有脸了吗,为啥还要单独整一个脸部素材?理论上来说,如果你找的是小博主,那确实风险不大,但出于对原博主肖像权的尊重,我们还是尽可能做多这一步,用任意的真实人像天生工具,天生一个虚拟的、符合你哀求的脸,来更换掉原视频中的脸。
天生脸的过程就不说了,我用的是midjourney,现在工具一大堆,把稳别用名人的脸就行。

咱就紧张讲下换脸,这里用到的工具是b站一位大佬免费供应的(不知道放推文里是不是违规,网盘链接须要的直接去"大众号里发:face)

工具解压后打开,上传视频和图片,按照截图的配置运行就行,路径名不能用中文,我自己跑的时候老爆显存(运存16G,显存6G,RTX2060的游戏本),这个线程数和内存占用是我这台电脑实测能跑的,如果你的配置更高,可以调高线程数和内存占用试试,按照这个设置跑30秒的视比年夜概五分钟的样子,也能接管(如果你的配置更低,乃至没有独显,也可以用CPU跑,我试了大概要15-20分钟跑一个30秒的视频,等等党大胜利)

这个工具大家轻微脑补一下也知道可以用来做搬运视频,这个后续有韶光也会实操之后出一期教程。

跑完了之后去输出目录就得到一个更换掉脸的素材,接下来搞定声音。

声音素材

声音的素材实在我们已经拿到了,也便是这个视频,能实现音视频分离的软件实在也不少,我用剪映处理的,直接右键点击视频素材轨道-选择音频分离,然后导出的时候选择导出音频,就可以收成一个只有人声的音频文件。

到这里我们就搞定了数字人制作的全部素材,接下来进入到数字人制作的步骤。

第二步:数字人制作

这几天摸索数字人踩了不少坑,数字人制作的平台便是一大坑,外洋主流的平台有两个,HeyGen和anylang,官网我就不放了,由于不推举。
heygen如果不充钱是不能定制数字人的,而充钱的话,一个月会员只有15分钟的时长要30刀(抢劫是吧),而且不支持海内的支付办法,而anylang,有人推举是由于它既可以定制数字人,还可以用谷歌邮箱白嫖1积分(也便是一个谷歌账号可以白嫖1分钟,我试过了确实可以),但问题是我换了两台电脑、三个浏览器,几个不同的素材视频,只要一到声音选择的地方网页组件就无法加载,不知道到底是我的问题还是他们做事器的问题,以是这里两个平台都不推举。

下面anylang19刀15分钟,上面heygen29刀15分钟,就离谱

末了是用海内的飞影数字人平台完成了制作(还有其他的,没深入研究),比较之下飞影便宜很多,而且现在有活动,定制数字人和定制声音都不额外收费,白嫖的积分也够用一个视频(虽然我图方便冲了会员)

前面素材如果准备好了这里制作过程相对就比较大略了,点击这个快速复刻,然后给数字人取名、上传换脸后的视频素材,上传后点击提交,这个数字人形象就会涌如今首页供你选择。

这里我们先等等,先去把声音模型也制作好,选择声音克隆-快速复刻,然后和视频一样,取名、上传、提交、等一等,声音模型就天生了。
这里如果原素材是英语并且没有中文的话,天生后的中文效果也是外国人效果,但是会有一点点怪怪的,不知道增加音频时长能不能优化,后续再试试。

现在回到首页点击视频制作,就会进入这个页面,左边选形象模型,右边中间放文案,把稳那个“试听”和“插入停顿”很主要,试听可以不消耗积分的情形下确认天生后的语音效果,插入停顿是防止有一些标点符号识别效果不佳可以手动处理一下,建议如果文案比较长的话只管即便用插入停顿的办法实现一些气口的间断,比用标点符号好。

声音部分如果已经有模型了,就可以在“我的”部分选择声音模型,上面和下面那个驱动办法都不用管,默认就好。

文案的选取实在也非常主要,但这不是主题,大家就各显神通吧,这里就分享一个文案提取的工具https://peiyinshenqi.club/#/tts/tools(配音神器),免费免登录直接可以把短视频里的文本提取出来,直接把链接贴进去就行,把稳自己二次修正文案去重。

完成上述步骤后,一个基本的外洋数字人视频就搞定了,你学废了吗?后面的视频剪辑和字幕就不啰嗦了,我也是剪辑小白,都是剪映处理的,处理得也很粗糙,还得好好学。

小彩蛋

末了再给个小彩蛋——人设怎么做?毕竟咱也不是外国人,也不懂什么名字什么地区什么学校,有个看起来像样的简介还是比平台里那些一眼AI的数字人好些吧?(当然截图这里是优化前的,简介不能这么长哈)

就冲咱这掏心掏肺的干货,就说值不值一个三连吧。