B站网友用AI模型天生了歌手孙燕姿的AI分身,实在跟车载导航上的“林志玲”、“郭德纲”类似。
拿歌手本人的音频去演习,天生一个音色千篇一律的“孙燕姿”。

然后,让偶像曲稿身喜好的歌的心愿,就以这样一种诡异的办法实现了。

外洋的玩法更加离谱。

美国一个拥有180万粉丝的23岁女网红,通过用GPT-4复刻了自己的AI分身,然后同时与1000多个网友谈恋爱,每分钟收费1美元。

AI开始为数字人注入灵魂

仅一周,她就狂赚了7.16万美元。

并且还远不止如此,现在她的“男友”还在连忙增加中,目前已经增加到了近万人,排队等待与她“谈恋爱”韶光已经长达96小时。

有剖析认为,按照趋势,她月入500万美元没有任何难度,如果不是技能限定,她赚到的钱,将可能是一个天文数字

这些征象已经可以充分解释,一个由AI+带来的新技能红利时期,正在被连忙到来。

01 数字人军团涌入直播间

直播带货是虚拟IP变现最具潜力的场景。

Z世代对社交、视频、网购等工具的利用深度遥遥领先于全网均匀水平,数字人和虚拟空间结合的新玩法给他们带来了体验感和交互性,虚拟IP的核心粉丝大多来自18-24岁的年轻群体。

这一趋势让品牌方看到了让产品冲破圈层的机会。

2020年,虚拟歌手洛天依和乐正绫等来到淘宝直播间,为博士伦、美的、欧舒丹等品牌带货。
这场直播不雅观看人数高达270万,有近200万人打赏互动。

这在当时一度掀起巨大的谈论,虚拟数字人直播的时期已经来了。

而随着今年由chatGPT掀起的人工智能大模型热潮,虚拟数字人领域又迎来一轮更加磅礴的爆发。

一大批量的虚拟数字人开始扎堆涌进直播间。

今年4月份,天娱数科旗下的虚拟数字人“朏朏”已完成 ChatGPT 模型接入,并完成直播首秀,不仅能够实时相应顾客的提问,还能根据不同问题进行自主回答。

在短视频上,涌现过很多这样的场景:一家公司的全体办公室里空无一人,只有一排排办公桌上有数十台电脑屏幕里的AI美女们正在直播......

图源:短视频

这家公司,只靠2D超写实的虚拟形象,提前准备好的话术和背景,就可以直播一天,虽然单个效果不如真人直播,但本钱低到令人发指,而且还可以超低本钱复制,胜在以量取胜,真正是做到躺着让AI挣钱也并非不可能。

这统统,在解释,一场基于“AI+”的内容效率革命,正在数字人领域爆发。

虚拟数字人根据制作技能、运用处景、形象特点分为很多种。

与3D人气偶像不同,现在大多数直播间里说话的根据真人原型复刻声音、表情的2D写实数字人,你根本分辨不出是真是假,但制作本钱远低于勇闯娱乐圈的A-Soul IP们。

一个虚拟主播可以进行724全天候的直播事情,随叫随到,也不用担心人设翻车的问题,减少了直播运营中的人工本钱。

这背后,是AIGC在重新塑造数字人的生产流程。

2D数字人的制作用上了深度学习,只须要确定形象设计,图文音频数据经由采集、预处理后上传到模型演习,制作办法相对3D更大略,更标准化,制作效能不断提升。

这种工厂流水线的办法,使数字人的制作门槛、本钱和周期得到了大幅缩短。

同时,随着行业制作真个技能迭代和本钱骤降,针对小型客户的数字人办理方案也开始呈现。

在4月份,腾讯云发布的数字人生产平台,须要天生真人形象的数字分身可以在平台上采购做事,只需上传图像音视频即可实现定制,根据不同音色、视频时长收费。

除了制作数字人,还可以供应整套数字人直播办理方案,功能包括了真人音频接管直播间,获取用户评论智能回答,定价仅须要千元级别。

而有些渠道商,打包售卖AI主播的定价乃至只要200元以内。

这些主播形象大多来自模特经纪公司的授权,投放质量虽然粗糙,抠图痕迹明显,声音也没有特点。

但对普通的中小企业来说,没有大V带货,花不起上百万定制高端IP,想要压缩运营本钱, 快速起量,几千块的数字人已经够喷鼻香了。

企业如果想要自己修正代码,产出不同的数字人,还可以向技能供应商购买源码,售价要比直接买AI主播更贵,不仅能自用,还可以利用源码发展代理,乃至比自己做数字人直播还赢利。

但AI数字人的故事,还没有讲完。

02 AI注入灵魂

IDC在《中国AI数字人市场现状与机会剖析》报告中将数字人分为五个等级,目前数字人发展经历从手工制作到AI建模的阶段,初步具备人的形状,但还只能做大略的交互决策。

当智能化水平来到L4、L5级别时,AI驱动的数字人能够接管大多数场景决策,支持更多模态的实时交互,类似钢铁侠的私人AI管家“贾维斯”。

虚拟数字人过去三十年的发展,技能发展和市场需求基本环绕着两点在演化,一是视觉效果;二是交互体验。

虚拟数字人最早涌如今游戏、动漫、电影里,对新潮事物的情绪连接和IP代价的延伸遥相呼应。

早期的角色型IP利用手绘,动作要一张一张地画。
1982年,日本动画《超时空要塞》的女主角林明美成为了首个发行音乐专辑的虚拟歌手。

在电影里,形象可以用打算机建模,但动作还得让人来做,CG技能和动作捕捉等技能逐渐遍及,依赖绿幕,捕捉设备,演员可以成为任何角色。

千禧年后,从02年的《指环王》到去年的《阿凡达2》,角色的渲染效果已颠末细入微,为艺术创作带来了巨大便利。

到这里,数字人技能的发展环绕更像“人”的极限一步步逼近,不仅仅哀求外不雅观、服装上的视觉效果趋近真实,还包括驱动(呈现真实细腻的表情和动作)和渲染(让画面更加风雅实时)。

不过,总以为还是缺了点什么。

1970 年,日本机器人专家森昌弘提出“胆怯谷”理论,由于机器人与人类在外表、动作上相似,以是人类会对机器人产生正面的情绪。

当机器人与人类的相似程度达到一个特定程度的时候,一点点的差别都会被放大,并带来负面和反感情绪。
而当机器人与人类的相似度连续上升,人类对其情绪会再度回到正面。

与电影不同,社交属性更强的运用处景对数字人实时交互的哀求更高,不但是知足于制作一个好看的“花瓶”而已。

在交互方面,自然措辞模型补充了这一空缺。

文本天生能力已经惊艳众人的GPT,给数字人的“智商”加上了两道杠。

NLP大模型是AI驱动虚拟人的技能基石,大略来讲便是让虚拟数字人能说会道,减少标准化内容的制作本钱,被演习来担当智能客服、主持人、导游等角色。
长期来看,随着个性化和情绪理解的能力提高,为老人供应陪伴关怀,成为小孩子的”私人西席“也将实现。

此外,嘴型动作也可以由AI驱动,建立起与文本的映射关系,随着写实程度的提高,微表情也就更丰富,说话的时候表情、口型能够对得上,这样的数字人不仅“形似人”,而且“神似人”。

Midjourney是基于diffusion model扩散模型的爆款产品,在去年7月发布,通过文本输入指令演习AI绘画。

有机构测算过,目前其年收入就已经能够达到1亿美元的规模。

有B站up主用Midjourney复原了奶奶的写实形象,从外不雅观上看,朽迈的皮纹和白头发细节感十足,加上过去的音频重现奶奶的声音,末了通过D-ID天生了奶奶的数字分身。

为了填补未与奶奶好好告别的小遗憾,孙子和面前的数字“奶奶”开启了对话,而“奶奶”亲切地回应,实在是ChatGPT供应的回答素材。

图源:B站

正是通过这些用户真个越来越多的考试测验,反过来为AI的“人格化”不断添加海量演习素材,加速丰富AI模型数据,终极让AI为数字人注入灵魂,带来更大可能。

03 尾声

对虚拟分身的探索至今持续了三十余年,从手绘到真人驱动,再到AI驱动,拟真感和交互性的体验进步打开了广阔的运用处景,涓流汇成大海。

AIGC帮助将普通人的外不雅观、声音等特色全面数字化,更低的制作门槛打开了市场的想象空间。

IDC估量,到2026年中国AI数字人市场规模将达到102.4亿元公民币,但能够给我们带来多么良好的体验,决定了数字人终极的命运。

同时,AI数字人具备下一代人机交互入口的潜质,未来我们面对的或不再是冰冷的屏幕,而是生动活泼的数字人类,越能够挖掘最深层次的情绪需求,成为我们生活里的参与者。

或许正如AI教父所言,人类只是聪慧蜕变的过渡阶段,以便创造出数字智能,如今我们终于有一个长得像人类的数字分身,像我们一样说话,往后或许还能像我们一样思考。