制图|况泽宇
拍摄|周鑫雨 邓咏仪
编辑|苏建勋
2024年9月19日开幕的阿里如斯栖大会上,近300家涵盖算力、模型、运用的AI企业,和近1000种AI产品,构成了一幅全行业的活舆图。
多模态和具身智能,两个今年最热的AI风口,在云栖霸占绝对的C位——
云栖大会“人工智能+”馆。
走进汇聚了近60家模型企业的“人工智能+”馆,能明显感想熏染到,如果不加点音视频干系的多模态能力,光拼参数的大模型已经不足看了。
而具身智能,是“前沿运用馆”最“City”的存在。一进场馆,就能看到20多家机器人企业,携着或仿真人、或仿狗子的产品,给你来上一段取货、翻跟头、猛踹不倒的炫技演出。
不过,无论是多模态,还是具身智能,再高大上和先锋的科技,能在云栖引起围不雅观的,只有“接地气”。
这届云栖,参不雅观者中第一次涌现了“义乌老板团”。面对同声传译、数字人主播和可一键天生商品图的运用,他们替用户提出了最为现实的问题:能帮我赚多少钱?
当红大模型独角兽月之暗面的展台,大概是“班味”最浓的一个。不少白领、IT都聚了过来,舌战字节的“豆包”和月暗的“Kimi”,哪个办公更好使。
在最具未来感的具身智能展台,被暴力踹踢而不倒的“小强”——逐际动力的双足机器人,引得不少路人围不雅观。这款用于展示机器“小脑”研究成果的机器人,目前还待在实验室里,供力学研究。
逐际动力双足机器人。
这也挡不住不雅观众对此发出灵魂一问:
“推不倒,到底有啥用?”
多模态,模型的标配通义千问:没有不想落地短视频的多模态运用
一进模型扎堆的“人工智能+”体验馆,很难不被“通义大模型”展区的AI太极写真天生体验区吸引。
通义AI太极写真。
体验者只要比划对应的姿势,在镜头中与简笔画合上——几十秒后,一张太极写真就出炉了。
当然,图生图的AI写真功能,只是阿里云模态版图中的一小块。作为东道主,阿里不仅发布了最新的视频天生模型,还搬来了文生图、图生视频、图+音频生视频的多模态百口桶。
全民舞王。
比如,在通义千问App内,阿里上线了10秒旁边的短视频天生运用“全民舞王”。
用户只需上传人或宠物的照片,以及一段说话音频,就能在1-2分钟内天生舞蹈视频、对嘴唱歌视频,或者动态表情包。目前,这还是个免费的功能。
人像动态视频天生技能EMO(Emote Portrait Alive)。
“全民舞王”的背后,是阿里巴巴智能打算研究所在2024年2月发布的人像动态视频天生技能EMO(Emote Portrait Alive)。仅需一张肖像照和一段音频,EMO就能让人物按照音频内容张嘴唱歌、说话。
据现场事情职员先容,自2024年4月25日上线以来,“全民舞王”的利用人数已经打破了10w+。多数用户的利用办法是
“这太适宜I人做短视频了吧!
”有参不雅观者感叹。
“没有不想落地短视频的多模态运用!
”
智谱:视频拍到哪,作业讲到哪
让家长纷纭容身的展台中,一定有智谱。
2024年8月29日,智谱将“类GPT-4o”的视频通话功能,搬上了自己的C端运用“智谱清言”。
这款领悟了视频理解、语音对话能力的功能,就好比AI溘然有了五感。用户可以用智谱清言学穿搭、识别物品,也可以把它当成赛博闺蜜。
当然,更适宜中国人“活到老学到老”体质的玩法,便是AI西席。
对着作业打开摄像头,手机镜头拍到哪,智谱清言就能解答到哪。并且,智谱清言的讲解,质量乃至和真人西席有的一拼,不仅谆谆教导,还有问答互动。
比如讲解“鸡兔同笼”,智谱清言不会直接给出答案,而是先勾引孩子列出二元一次方程组。
智谱清言视频通话功能。
孩子再也不怕难题,家长也解放了双手。
生数Vidu:给我一张剧照,我还你一段新海诚
同样是“清华系”出身的生数科技,展出了自研的视频天生模型Vidu。2024年4月发布时,Vidu由于性能精良,还一度出圈,被称作“中国版Sora”。
但即便是OpenAI的Sora本尊,也很难办理视频的前后同等性问题。不难创造,大多AI视频中,每一帧的脸都不一样。
为理解决同等性难题,生数的办理办法是,给Vidu找个“模特”。
2024年9月11日生数科技发布的“主体参照”(Subject Consistency)功能,让Vidu根据给出的参考图,确定视频主体的形象和风格。
“主体参照”(Subject Consistency)功能。
现场,作者上传了一张新海诚电影《铃芽户缔》的女主角“铃芽”的剧照,Vidu就根据铃芽的形象,天生了一段秋日公园视频。
VAST Tripo:3D天生也有Scaling Law
“我们有环球最大的3D数据库。”
这是我们在展区唯一听到过的带有“最”字的判断。这句话,来自3D天生领域的明星企业VAST。
海内不少人可能会以为VAST面生,缘故原由在于,这家由前MiniMax和商汤成员创立的公司,第一天就做了出海的买卖。
据事情职员先容,VAST在外洋主打面向游戏、XR开拓者的C端运用,在海内则主打B端运用,“并且我们在外洋商业化不错”。
不少圈内人对VAST的3D天生模型Tripo的评价是:高性能,操作友好。根据输入的笔墨或者图片,Tripo仅8秒就能天生3D原型图,并且支持市情上所有的3D原型编辑软件,还能直接3D打印。
Tripo现场3D打印。
Tripo笔墨天生3D素材。
当下,3D天生模型的演习,也沿用堆参数的暴力美学Scaling Law。2024年初,VAST发布的Tripo 1.0,参数就达到了数十亿,在演习数据稀缺的3D模型中是相称弘大的存在。
提高参数,相应的也要增加模型的演习数据。
事情职员透露,在获取稀缺的高质量3D数据过程中,团队花了不少韶光在“犄角旮旯”中获取数据。而在演习过程中,模型也用了不少AI合成3D数据。
就在2024年9月19日,VAST还发布了天生质量更好的Tripo 2.0,实现10秒⽣成形状⼏何、10秒⽣成纹理及PBR(一种仿照光与材质相互浸染的渲染技能)。
音疯:AI玩音乐还是疯
2024年7月,网红秦新宇因整容失落败发布的名为《还我妈生鼻》的魔性歌曲,溘然冲上了微博热搜。
而这首歌的谱曲者,不是秦新宇,也不是专业音乐团队,而是一个上线不到两月的AI音乐天生平台“音疯”。
音疯AI音乐体验区。
音疯展台。
这款由昆仑万维推出的音乐制作平台,特点在:长。事情职员表示,音乐天生的难点在于保持前后同等性,一旦歌曲超过1分钟,前后的曲风很难保持同等。
因此,音疯的卖点在于,将AI音乐天生的时长拉到了4分钟,并且能够相对保持前后风格的同等性。用户只须要输入歌词,并且在曲库和人声库中选择喜好的风格,就能天生一段歌曲。
当然,事情职员见告作者,目前音疯利用最高频的场景,也是短视频:)。
HiDream.ai:为电商量身定制的AI生图
HiDream.ai(智象未来)的展台,容身了一批批的责任商家。
这家由前京东探索研究院副院长梅涛成立的AIGC公司,基因里就带着“电商”两个字。虽然同样是图片天生,HiDream.ai的AIGC创作平台“秩象”,就像集布景、拍摄、后期于一身的商品图事情室。
HiDream.ai的AIGC创作平台“秩象”。
比如,商家只要输入商品图,就能灵巧切换背景、模特。在为服装天生模特图的过程中,商家乃至能够选择模特姿势、性别、肤色、人种。
月之暗面:视频功能,Kimi怀胎中
人工智能+馆人气最旺的展馆,有Kimi的一席之地。
在一众把图片、音频、视频、3D等模态玩出花的模型中,仍旧主打文本、表格和代码任务的Kimi就稍显朴素。
当然,这并不影响Kimi展台的人气——或者准确来说,是“班味”。
现场不乏有上班族,直接向事情职员讯问笔墨转excel、文件天生报表、文书撰写的方法。乃至还有企业IT,直接来咨询Kimi API如何接入钉钉、企微和飞书。
Kimi展台。
不过,这款打工神器,也免不了朝着更多模态迭代。事情职员对作者透露,Kimi的视频功能,已经在路上!
机器人炸场,虚拟人扎堆银河通用:松弛感拉满的机器人售货员
善于“抓”的银河通用机器人Galbot G1,这次走进了未来的无人商超。
消费者在平板高下单后,Galbot G1机器人就会前往货架,准确拿取下单的商品。
Galbot G1。
不过,这位机器人售货员的取货速率,有些太慢了——从下单到接到冰红茶,差不多用了1分钟。想要进商超,机器人还是得先戒掉这绝佳松弛感。
当然,无人售货只是银河通用展示的个中一个场景。目前,Galbot G1已经能够精准抓取矿泉水、雨伞等随机放置的物品,还能够闇练开柜门、抽屉和晾衣服。
事情职员表示,2024年Q4,就有希望看到机器人进入真实的商业场景。
清宝:仿真机器人,上流水线搬砖
和披着人皮的机器厂友做同事,立时就要成为现实了。
在清宝机器人的展台,几名不断变换pose的仿真机器人构成了门面——然而,由于眼珠迁徙改变过于灵巧,但表情麻木,这几名机器人还是产生了一些胆怯谷效应。
清宝机器人。
而这几名仿真机器人的浸染,既不是陪伴,也不是做智能导游、机器人主播之类的“文职”,而是直接进工厂!
目前,由于流水线SOP(标准操作流程)比较固定单一,且整机机器人本钱较高,投入真实流水线利用的机器人,大多是单一的机器臂。
据事情职员先容,目前签单的整机人形机器人,在流水线上紧张做的是质检和零件分配,客户给出的情由也很新奇:“想让产线有点温度”。
当然,对付客户而言,机器人带来的温暖,还得在降本增效上。事情职员对作者表示,机器人一年可以节省20%旁边的人工本钱。
酷开:云电视,捉住AI稻草
“这几年电视行业太难了!
”云电视厂商酷开的员工,上来就倒了满满的苦水。随着电视机大盘被移动智能产品挤压,云电视厂商的日子也不好过。
不过,2024年以来,酷开算是守得云开见月明——AI是他们捉住的稻草。
酷开在云电视上线的AI OS,支持语音搜索电视剧、电影,以及网络咨询,还能向Chatbot等智能助手一样,给用户推举片单。
比如用语音输入“陈道明演天子的电视剧是什么?”酷开急速显示了搜索结果:《庆余年1、2》《楚汉传奇》《康熙王朝》。
酷如斯电视 AIOS。
值得一提的是,搜索结果显示的演员照片、电视剧剧照,全都是由AI在后台天生的。酷开事情职员见告作者,这是为了能够精准贴合用户的搜索需求,“比如你的偶像是鹿晗,你想看他的剧,肯定也想看到搜索结果全都是他的照片。”
不仅如此,酷开也能根据用户的个人喜好,用AI天生片单推举视频。
上线AI OS一个月,酷开就吃到了AI带来的甜头。事情职员表示,内嵌大模型能力后,利用语音交互功能的用户数量和时长有了明显的提升;与此同时,技能本钱的增加还能掌握在10%以内。
阿里云视频团队:一键给《甄嬛传》配英笔墨幕
一部成熟的电视剧,就该当学会自己给自己配多措辞字幕。
这个美好的愿景,已经被阿里云视频团队实现了。
阿里云视频团队的视频字幕翻译功能。
以往给电视剧配外语字幕,是个大工程。你须要先把台词转录成中笔墨幕,再翻译成外语。与此同时,配字幕还免不了用剪辑工具。
如今,基于通义实验室自研的算法,用户已经可以实现“端到端”翻译甄嬛传:不须要给字幕,直接扔视频文件,就能自动配英笔墨幕。
猎聘“多面·doris”:未来,AI给你发offer
第一批数字人口试官,已经上岗了。
猎聘旗下的AI产品“多面·doris”,便是一位在24小时内,口试400多人的AI口试官。
目前,猎聘AI口试有设定问题、智能问答等多种模式。比如在智能问答环节,AI首先会基于简历,剖析出应聘者的潜在风险点,比如“频繁跳槽”“任职韶光不长”,后续的口试,也大概率会环绕这些问题展开。
猎聘AI口试产品“多面·doris”。
不过,不少口试者反馈,由于缺少即时交互,以及难以从AI口试官的扑克脸中得到反馈,和AI口试反而更紧张了。
末了,事情职员知心提醒,数字人口试官比较适宜一壁、二面等人才的初筛环节。如果企业想要聘请高端人才,还是由人出马更显诚意!
Motiff 妙多:设计师救星,一句话也能天生UI了
目前海内最懂UI设计的大模型,源自一个叫做Motiff 妙多的团队。
至少须要一周的UI设计,现在被简化成了输入一段话。
用户只需笔墨输入所需的界面类型、组成部分,以及定制化的描述,20秒旁边,就能天生两版UI设计稿。
Motiff AI天生UI。
与此同时,基于自研的UI大模型对布局的理解能力,原有Cmd+V、Cmd+C的重复动作,被Motiff简化成了一步到位的下拉动作。
狼人杀不尽,AI吹又生
除了机器人和数字人,前沿运用馆最随意马虎找到的,该当便是AI狼人杀。
游戏公司巨人网络,就将AI狼人杀,作为投放在抖音、B站上的时令性用户活动。
这些AI NPC的“攻击性”还挺高,玩家发言一旦有逻辑漏洞,就会被“群起而攻之”。
巨人网络AI狼人杀。
这些24小时无休、永久在线的AI NPC,将巨人时令性活动的用户时长,增加了10倍多。
在2018年上线的剧本杀App“百变大侦查”,近一个月也基于通义千问上线了AI剧本杀。
更进一步,玩家可以直接用语音和AI NPC进行对话。不过,对话的轮次有限定,想要增加对话次数,玩家只能氪金——这也是目前不少AI剧本杀的紧张商业模式。
“百变大侦查”AI剧本杀。
当然,在游戏前加了“AI”两字,并非全是好事。
事情职员见告作者,接入大模型后,技能本钱就提升了不少。与此同时,团队选择剧本也更为谨慎:太繁芜的本,AI不理解;太大略的本,用户不愿玩。
只能说,AI在进步,人也得随着进步。
欢迎互换!