最近刷屏AI圈的大事宜,无外乎MiniMax推出了视频天生工具海螺AI。
科技博主们对它寄予厚望,纷纭感叹“忘了Sora,MiniMax的视频天生模型已经得到了巨大进步”“中国又出了一个强力竞争对手”“我见过手部动作最自然的模型”……
电影制作人们用它开始玩起了短片,赛博科幻风、暗黑胆怯风都没在怕的。
短片《A Place in Hell》截至目前,海螺AI天生视频合集在X平台上得到了超1800万浏览量,不少国外网友用它对有名IP进行二创,《星球大战》的经典场面已经得到了约500万次的不雅观看。
这款刷屏各个社交平台的视频天生工具——海螺AI,由大模型公司MiniMax自研发布,可以一次性天生长度为6秒的短视频。
8月31日,MiniMax发布了一段以“邪术硬币”为主题的宣扬视频,视频画面、音效完备由MiniMax旗下的视频、语音大模型完成。
目前,海螺AI的视频创作功能已经在网页端上线,用户可在首页点击“创作视频”,即可限时免费天生视频。
“AI新榜”也进行了一番实测,涵盖人物、笔墨、风景等多种镜头表现类型,我们意外创造在人物感情表达、镜头运动等视频类型上,MiniMax展现出了一定上风。当然,我们也在测试过程中碰着了一些海螺AI的问题和短板。
本篇将结合不同视频天生工具的呈现效果,包括文生视频公认的王者Runway以及媲美Sora的海内AI可灵,看看MiniMax究竟能不能成为视频天生赛道的最强黑马?
实测MiniMax海螺AI,天生视频有了“人味”?根据不少创作者的测试反馈,海螺AI在人物表情天生上表现相称出色。“感情表达”对付AI来说是一个难题,Runway旗下的模型达到感情转换,每每须要借助运动笔刷功能,进行细节调试,更不用说直接能借助提示词转换情绪表达了。
图片来源:科技博主“歸藏”发布的视频截图海螺AI真能让人物实现“光速变脸”?我们来上手测试一下。人物类
提示词:一个中年悲哀的光头男人溘然变得快乐,由于有人给他戴上了一顶假发和一副太阳镜。
可灵:
在没有风格提示词的情形下,无论是可灵、海螺还是Runway,都会天生写实风格的视频。不同的是,短短6秒内,海螺展现了一个中年男人从悲哀到快乐到尴尬的变脸故事。可灵没有遵照笔墨提示中的详细动作转变——“戴上了假发和眼镜”,而是展现了中年男人已经戴上的状态。Runway这轮天生的视频中涌现了肉眼可见的技能瑕疵,既没有假发的元素,还直接让主角自己戴上了太阳镜。我们连续在提示词上加些难度,比如多人场景,并且哀求人物的心情不同。
提示词:一个中年悲哀的光头男人溘然变得快乐,由于有人给他戴上了一顶假发和一副太阳镜。阁下有位女士正看着他笑。
海螺:
令人惊喜的是,海螺奥妙地将其余一个人物虚化处理,差异前后景,并且两个人的表情也截然不同。只管在佩戴假发和太阳镜动作处理上有些不自然,但总的来说掌握住了多人物的场景。根据相同的提示词,可灵天生的画面有所欠缺,对付“女士”的表现只有隐约的长发,人物面部表情、动态效果处理都有所欠缺。再看Runway,它无法天生两个人物截然不同的面部表情,要笑一起笑,要戴眼镜一起戴,颇有“荣辱与共”的天生义务感。其余,在人物镜头天生过程中,我们创造不同于Runway天生名人形象会得到违反内容政策的提示,MiniMax在这一方面限定较少,比如可以天生带点“老铁味”的马斯克。
笔墨类测试下来,海螺在英文笔墨输出方面也很成熟,并且还能一次性天生连续的镜头,改变画面的通亮程度。
提示词:镜头缓缓推近,一壁阴暗的墙上有一个灯箱闪烁了几次,然后亮起笔墨“AIGCPLAYER”,发出彩色的灯光,赛博朋克风格
Runway天生笔墨向来可圈可点,在动态效果表现上优于海螺,但运镜转换上仍有提升空间。
可灵目前还无法做到笔墨类镜头天生,对付“阴暗”的理解到位,画面氛围感十足,但英文笔墨完备缺点。
风景写实类
提示词:一只毛绒质感的小黄鸭,特写镜头展示了小黄鸭优柔的黄色羽毛和圆圆的眼睛。小黄鸭头顶大葱,在上海的黄浦江上游,翅膀灵动地拨动着水面。
A plush texture of a small yellow duck,close-up shots show its soft yellow feathers and round eyes. Little yellow duck with scallions on its head, fluttering its wings on the water surface in the upper reaches of the Huangpu River in Shanghai.
根据“AI新榜”此前多轮测试,大多数主流模型在风景写实类镜头上表现都比较稳定。这次寻衅的海螺、可灵和Runway在效果上也各有千秋。海螺:
论真实性,没有什么能够比得过可灵。但可灵在地标建筑上稍有欠缺,背景并没有表示上海、黄浦江等关键元素。海螺对付光影和背景处理更胜一筹,但天生的小黄鸭更有塑料感,没有很好表现出提示词中的“毛绒感”,更像一只玩具鸭。Runway天生的画面直接采取特写镜头,奥妙地办理了背景处理的问题。镜头运动镜头运动实在也涵盖了各个视频模型对付长文本的理解能力,我们投喂的提示词如下:
A dramatic close shot of a stormy ocean with towering waves crashing against a small ship. A monstrous creature is emerging from the depths of the sea, its massive form breaking through the water, sending sprays of ocean mist into the air.
The ship, dwarfed by the creature, tilts precariously on the turbulent waves. Onboard, a lone man stands at the bow, gripping the railing tightly, staring in awe and terror at the monstrous figure rising before him. The scene is lit with intense, cinematic.
广角镜头,一张狂风雨般的大海,巨浪拍打着一艘小船的戏剧性照片。一个巨大的生物正从深海中涌现,它巨大的体型冲破水面,向空中喷射出海洋薄雾。那艘船在彭湃的波涛中风雨飘摇,与那生物比较显得矮小。船上,一个孤独的人站在船头,牢牢捉住栏杆,敬畏而胆怯地盯着面前升起的怪物。现场充满了强烈的电影感。
整体天生效果上,只有海螺达到了“镜头运动”的效果,并且没有涌现重影、崩坏等严重的画面瑕疵。MiniMax前端开拓佳心也在即刻平台分享,加上更多镜头描述,比如“镜头跟随(主体)”,画面会更具电影感。
只不过,提示词要素过多,导致终极的人物仅是一闪而过,如果分段进行天生,能达到更好的画面效果。可灵:
总的来说,海螺AI对付提示词的理解能力在线,天生的视频内容连贯性和可控性上把握得当。在微表情变革、运镜表现上更细节、更具上风,乃至能够很好刻画出人物的感情转换。可以说,我们总希望的AI能有“人味儿”,MiniMax先浅浅往前跨了一小步。大家可以再直不雅观感想熏染一下,海螺AI在“感情表达”上的能力:
值得一提的是,我们在考试测验过程中创造,不少利用英文提示词天生的画面,明显优于中文提示词天生的。比如,前文巨浪的画面利用中文的效果是:
还有同样是让婴儿开摩托车:
提示词:一个婴儿骑着摩托车下山,一对父母骑着摩托车跟在后面,下坡的电影动作场景,快节奏,高速动作。
A cinematic action scene of a baby driving of a mountain,downhill, on a motorcycle.Parents are following him, on a motorcycle. Fastpaced, high speed action.
中文版:
英文版:
中文版完备没有办法理解“婴儿”这一词,但英文的“baby”就表现得很恰当。在中文提示词下,人物表情扭曲、画面崩坏的问题会更加明显,在真实感上会有所欠缺。在测试过程中,除了中英文提示词效果不同外,我们也碰着了其他问题,剩了不少废片。比如,它默认天生的欧美面孔偏多,短缺国风元素。和其他工具一样,如果追求高质量的画面,海螺AI就避免不了“抽卡”的环节。其余,海螺AI暂不支持并行天生多个视频,无法调度画面比例,这在一定程度上也限定了视频内容的再创作。不过,MiniMax创始人闫俊杰在接管多家媒体采访时提前预报称,未来产品会迭代图生视频功能,增加视频可掌握、可编辑等功能。未来几周内,MiniMax还会发布从速度和效果上都对标GPT-4o的大模型abab 7。
国产大模型加速赶超,MiniMax能否脱颖而出短短几个月,文生视频的竞争已然走向白热化。AI视频天生在画面流畅度、物理天下仿照、长文本理解等方面都有显著的提升,早已褪去切片式“动态PPT”的效果,转变成可利用的创尴尬刁难象。且不说外洋的Runway、Luma、Pika,近半年内海内就涌现了可灵、清影、Vidu等视频天生工具,一时让人决议不出哪家效果最好。此前,“AI新榜”对10家国内外热门的AI视频天生工具进行过实测盘点,感兴趣的玩家可移步阅读。(干系阅读:《可灵制作短片惊艳马斯克,以是最好用的AI视频工具究竟是谁?》)结合我们此前的实测和玩家反馈,几家AI视频产品各有特色。就海内来看,可灵在国风元素、对物理天下理解上具有独特上风,以是天生画面更具备真实感;生数科技的Vidu天生耗时短;即梦是几家中综合性价比较高的一款工具。国外,Runway Gen-3在长文本语义理解上跃升了新台阶;Luma Dream Machine在动幅和想象力上十分出色,因此网友大多用它来玩梗造梗。MiniMax的海螺AI在人物细节和感情表现上找到了自己的赛道。这一特点也让海螺AI吸引了海内外创作者对视频天生的又一轮创作激情亲切。比如,博主“Lepadphone”用19个哭泣干系的提示词,让海螺AI天生了一组视频。
来源:视频号用户“Lepadphone”“Min Choi”的视频展现了多人物场景,该视频在X平台上获赞2.8万。
来源:Min Choi在此前MiniMax伙伴日活动上,闫俊杰提到,MiniMax一贯在办理视频天生的稳定性等难题,让模型的输入输出尽可能长,让AI更进一步像人。之前基于文本的底层根本举动步伐,处理洗濯数据、标注等等都不太适用视频,由于视频是千万token的输入和输出,天然具备繁芜性。碍于技能层面上的多重寻衅,MiniMax入局AI视频,显得有些姗姗来迟。最初,“海螺AI”实在是一款类ChatGPT的AI助手,早前被人熟知是由于它的声音克隆功能,超拟人的音效营造了和真人谈天的情境,吸引了不少网友和它互动谈天。
在语音大模型、文本对话上具有明显上风的Minimax,卷起了视频天生。海螺AI的网页端上,我们可以看到搭载了创作音乐、创作视频、对话搜索等新能力。用户乃至可以一站式完成文本到有声音的视频。MiniMax背后的abab-music和abab-video模型,使得这一贯出事情流成为可能。闫俊杰在最新的分享中称,人类大部分的互换在多模态里。实质上纯笔墨信息占比少,更多的是通过图文、短视频等信息互换,乃至购物也都是图片为主。所以为了用户的覆盖度和利用度,能够输出动态内容是更核心、更主要的。这可能也是今年AI视频运用爆发的缘故原由之一,从大厂到初创公司,国内外浩瀚企业纷纭加入到这场技能竞赛中,一韶光视频天生赛道显得十分拥挤且激烈。技能层面上,各家开始卷起了视频掌握功能、确保内容连贯性和质量。近期,快手可灵面向超级创作者内测了1.5版本以及运动笔刷功能,旨在进一步提升视频画面的可控性。AI视频模型的落地,已经不仅仅是技能上的较劲。另一方面,在海内大模型To C产品免费为主的情形下,AI视频天生工具大多开启了付费订阅模式,快手可灵、字节即梦、智谱清影陆续上线了会员体系。此前,AI视频创作者Abel Art曾估计,1分钟连贯的视频比例约为500个视频片段,用现有AI工具制作1分钟视频的本钱大约在125美元(约890元公民币),相称于租借电影镜头一天。这仅仅是个人创作者的算力和资金花费,在这样的背景下,高算力需求和推理本钱还能让MiniMax限时免费多久?闫俊杰谈及大家关注的商业化问题,还是很谨慎。他提到:“最主要的东西还不是商业化,是提高AI产品在用户中的渗透率,比如说海螺打磨出新的功能,直到有用户粘性,是真正地让技能到达广泛可用的程度。”