AI 天生的视频技能正在改造我们的视觉体验,为动漫、视频行业带来新的想象。
在视频天生方面,华为云盘古媒体大模型通过演习几十张特定美学风格的图片,如吉卜利、二次元等风格,输入实拍视频即可快速天生该风格的动漫视频,实现按需时永生成稳定的动漫视频,这为动漫的生产供应了新的模式。
在之前,视频天生技能在动漫视频天生时,都是按每一帧画面进行风格化,然后重新串联成视频。
由于 AI 转换的不愿定性,随意马虎涌现角色前后特色发生变革,变成其余一个人,或者在人物运动、转身、侧脸等情形下细节特色发生变革。
盘古媒体大模型通过 ID 同等性模型,对天生画面中的关键角色进行同等性处理,保持视频中角色样貌特色前后始终同等,在侧脸、运动轨迹下的视觉效果同样合理同等。
并且,视频中的关键道具也能保持前后同等性。
这种可控的视频天生技能,更随意马虎知足真正的工业场景运用需求。

例如,在第十四届北京国际电影节 “AIGC 电影短片单元” 竞赛中得到最佳影片奖的 AI 动画短片《致亲爱的自己》,由中国传媒大学动画与数字艺术学院及 Ainimate Lab 在华为云的支持下共创天生。
在这支作品中,有大量、大幅度舞蹈动作,人物与镜头运动轨迹大,基于 ID 同等性模型,人物的面部轮廓、发型、五官等样貌特色始终保持稳定天生、同等,以是不雅观众能看出前后一贯是同一个人。
同时视频中的关键道具蒲公英造型戒指,也在多个画面中保持同等。

其余,当前很多 AI 影片的不敷之处,在于故事情节多依赖旁白串联全篇,片中主人公的微动作和表情险些都无法表现。
这种 AI 视觉叙事能力的缺失落,让人物失落去了感情演出的递进和传染力,不雅观众无法与之共情,以是故事的深刻和细腻很难传达出来。
基于这个问题,华为云基于 MetaStudio 的一站式云上数字内容生产平台能力,让影片内容生产办法发生质的跃迁,比如这项技能可以严格哀求演员表情细节、肢体动作细节,能在最关键的几个要传达感情的镜头里,把角色的表情保留下来,担保作品故事信息有效通报。

讲好中国故事、传播好中国声音,展示真实、立体、全面的中国,是加强我国国际传播能力培植的主要任务。
近年来,凭借丰富题材、新颖视角和独特风格,我国的影视、短剧出海需求愈加兴旺。
但传统的视频译制,须要配音演员熟习翻译后的台词、体会角色情绪,再对视频进行目标语种的重新配音。
因此,影片质量完备取决于配音演员的专业能力,而且角色原来的声音和情绪都会被重塑。
并且,受限于人工译制本钱高,影片的质量也参差不齐,产能有限。
但通过媒体大模型供应的视频翻译能力,用 AI 能将视频翻译为目标措辞,并且影片中原始角色的音色、情绪、语气可以无缺保留;并且除中英译制外,联合逻辑智能伙伴的能力,可以实现韩语、法语、德语、西语、泰语、阿语等 15 种措辞的译制,并达到影视级译制效果。
除了声音外,通过媒体大模型的口型驱动模型,可以实现音唇同步,给不雅观众带来更好的不雅观看体验。
尤其是当影片中人物处于侧面、多人对话、物体遮挡以及移动等场景,也能做到很好的口型匹配。
正如华为云与中影集团互助,将媒体大模型运用到了影视工业,共同打造出影视译制大模型,通过 AI 将视频译制身分歧措辞,支持口型匹配的同时保留了原始角色的音色、情绪、语气,为影片译制供应了全新的 AI 制作办法。
华为云媒体大模型的视频译制能力,更为影视、短剧出海供应了一种新的生产力工具,更好地实现内容高效、高质量的供给。

AI 时代探索影像创作的新模式

其余,在语音天生方面,媒体大模型重塑了个性化语音天生以及情绪化。
个性化语音在很多行业场景中已经广泛利用,例如数字人、有声书配音、培训课程制作、虚拟 NPC 等。
传统的声音克隆模型都是小模型,须要几百句话的录音,通过人工标注,反复演习提取音色。
基于媒体大模型语音天生能力,只须要几句话、几秒钟的声音,即可学习到个性化的音色、语调、表达韵律,从而得到高质量的个性化语音。
同时,这项技能支持喜怒哀乐等拟人情感语音,支持闲聊、新闻、直播等 10 多种语气风格,让天生的语音更拟真,更具情绪,符合更多场景所需。

视频加载中...

华为云媒体大模型-AI 译制案例视频《无尽攀登》

AI 大模型赞助措辞的翻译不仅运用在影视行业,对付人们的日常互换、事情也有着重要的意义。
在 AI 翻译方面,媒体大模型可以通过 AI 实现多语种实时传译,准确性大于 93%。
这项技能可运用于实时通话、云会议等须要实时翻译的场景,重塑了跨措辞沟通体验。
并且,基于大模型的语音复刻、AI 笔墨翻译以及 TTS 技能(文语转换技能),可以实现语音的同声传译。
通过这项技能,每个人跨措辞沟通时都可以用自己的母语说话,听的时候选择自己的母语收听,AI 就会将每个人的发言以预置声音或者真人的声音翻译为收据说话,实现跨措辞母语沟通体验。
结合数字人技能,在人们未便利开摄像头时,还可以用数字人参会,并通过口型驱动实现数字人以各种措辞说话且都能精准匹配口型,就犹如本人说话一样。

如今,像华为云媒体大模型这类 AI 干系技能和运用工具的迅速发展和遍及,深刻影响着影像工业制作流程,更让一些影像从业者重新技能的出身中得到创作的新启示、新认知和新创意。
或许,更长于与 AI 打交道的影像艺术家,将在未来创作中得到更有力的赞助和更创新的影像创作模式。