一小时翻译整部甄嬛传AI面试官发offer在杭州看AI落地的1000种弄法

制图｜况泽宇

拍摄｜周鑫雨邓咏仪

编辑｜苏建勋

2024年9月19日开幕的阿里如斯栖大会上，近300家涵盖算力、模型、运用的AI企业，和近1000种AI产品，构成了一幅全行业的活舆图。

一小时翻译整部甄嬛传AI面试官发offer在杭州看AI落地的1000种弄法

多模态和具身智能，两个今年最热的AI风口，在云栖霸占绝对的C位——

云栖大会“人工智能+”馆。

走进汇聚了近60家模型企业的“人工智能+”馆，能明显感想熏染到，如果不加点音视频干系的多模态能力，光拼参数的大模型已经不足看了。

而具身智能，是“前沿运用馆”最“City”的存在。
一进场馆，就能看到20多家机器人企业，携着或仿真人、或仿狗子的产品，给你来上一段取货、翻跟头、猛踹不倒的炫技演出。

不过，无论是多模态，还是具身智能，再高大上和先锋的科技，能在云栖引起围不雅观的，只有“接地气”。

这届云栖，参不雅观者中第一次涌现了“义乌老板团”。
面对同声传译、数字人主播和可一键天生商品图的运用，他们替用户提出了最为现实的问题：能帮我赚多少钱？

当红大模型独角兽月之暗面的展台，大概是“班味”最浓的一个。
不少白领、IT都聚了过来，舌战字节的“豆包”和月暗的“Kimi”，哪个办公更好使。

在最具未来感的具身智能展台，被暴力踹踢而不倒的“小强”——逐际动力的双足机器人，引得不少路人围不雅观。
这款用于展示机器“小脑”研究成果的机器人，目前还待在实验室里，供力学研究。

逐际动力双足机器人。

这也挡不住不雅观众对此发出灵魂一问：

“推不倒，到底有啥用？”

多模态，模型的标配通义千问：没有不想落地短视频的多模态运用

一进模型扎堆的“人工智能+”体验馆，很难不被“通义大模型”展区的AI太极写真天生体验区吸引。

通义AI太极写真。

体验者只要比划对应的姿势，在镜头中与简笔画合上——几十秒后，一张太极写真就出炉了。

当然，图生图的AI写真功能，只是阿里云模态版图中的一小块。
作为东道主，阿里不仅发布了最新的视频天生模型，还搬来了文生图、图生视频、图+音频生视频的多模态百口桶。

全民舞王。

比如，在通义千问App内，阿里上线了10秒旁边的短视频天生运用“全民舞王”。

用户只需上传人或宠物的照片，以及一段说话音频，就能在1-2分钟内天生舞蹈视频、对嘴唱歌视频，或者动态表情包。
目前，这还是个免费的功能。

人像动态视频天生技能EMO（Emote Portrait Alive）。

“全民舞王”的背后，是阿里巴巴智能打算研究所在2024年2月发布的人像动态视频天生技能EMO（Emote Portrait Alive）。
仅需一张肖像照和一段音频，EMO就能让人物按照音频内容张嘴唱歌、说话。

据现场事情职员先容，自2024年4月25日上线以来，“全民舞王”的利用人数已经打破了10w+。
多数用户的利用办法是

“这太适宜I人做短视频了吧！
”有参不雅观者感叹。

“没有不想落地短视频的多模态运用！
”

智谱：视频拍到哪，作业讲到哪

让家长纷纭容身的展台中，一定有智谱。

2024年8月29日，智谱将“类GPT-4o”的视频通话功能，搬上了自己的C端运用“智谱清言”。

这款领悟了视频理解、语音对话能力的功能，就好比AI溘然有了五感。
用户可以用智谱清言学穿搭、识别物品，也可以把它当成赛博闺蜜。

当然，更适宜中国人“活到老学到老”体质的玩法，便是AI西席。

对着作业打开摄像头，手机镜头拍到哪，智谱清言就能解答到哪。
并且，智谱清言的讲解，质量乃至和真人西席有的一拼，不仅谆谆教导，还有问答互动。

比如讲解“鸡兔同笼”，智谱清言不会直接给出答案，而是先勾引孩子列出二元一次方程组。

智谱清言视频通话功能。

孩子再也不怕难题，家长也解放了双手。

生数Vidu：给我一张剧照，我还你一段新海诚

同样是“清华系”出身的生数科技，展出了自研的视频天生模型Vidu。
2024年4月发布时，Vidu由于性能精良，还一度出圈，被称作“中国版Sora”。

但即便是OpenAI的Sora本尊，也很难办理视频的前后同等性问题。
不难创造，大多AI视频中，每一帧的脸都不一样。

为理解决同等性难题，生数的办理办法是，给Vidu找个“模特”。

2024年9月11日生数科技发布的“主体参照”（Subject Consistency）功能，让Vidu根据给出的参考图，确定视频主体的形象和风格。

“主体参照”（Subject Consistency）功能。

现场，作者上传了一张新海诚电影《铃芽户缔》的女主角“铃芽”的剧照，Vidu就根据铃芽的形象，天生了一段秋日公园视频。

VAST Tripo：3D天生也有Scaling Law

“我们有环球最大的3D数据库。
”

这是我们在展区唯一听到过的带有“最”字的判断。
这句话，来自3D天生领域的明星企业VAST。

海内不少人可能会以为VAST面生，缘故原由在于，这家由前MiniMax和商汤成员创立的公司，第一天就做了出海的买卖。

据事情职员先容，VAST在外洋主打面向游戏、XR开拓者的C端运用，在海内则主打B端运用，“并且我们在外洋商业化不错”。

不少圈内人对VAST的3D天生模型Tripo的评价是：高性能，操作友好。
根据输入的笔墨或者图片，Tripo仅8秒就能天生3D原型图，并且支持市情上所有的3D原型编辑软件，还能直接3D打印。

Tripo现场3D打印。

Tripo笔墨天生3D素材。

当下，3D天生模型的演习，也沿用堆参数的暴力美学Scaling Law。
2024年初，VAST发布的Tripo 1.0，参数就达到了数十亿，在演习数据稀缺的3D模型中是相称弘大的存在。

提高参数，相应的也要增加模型的演习数据。

事情职员透露，在获取稀缺的高质量3D数据过程中，团队花了不少韶光在“犄角旮旯”中获取数据。
而在演习过程中，模型也用了不少AI合成3D数据。

就在2024年9月19日，VAST还发布了天生质量更好的Tripo 2.0，实现10秒⽣成形状⼏何、10秒⽣成纹理及PBR（一种仿照光与材质相互浸染的渲染技能）。

音疯：AI玩音乐还是疯

2024年7月，网红秦新宇因整容失落败发布的名为《还我妈生鼻》的魔性歌曲，溘然冲上了微博热搜。

而这首歌的谱曲者，不是秦新宇，也不是专业音乐团队，而是一个上线不到两月的AI音乐天生平台“音疯”。

音疯AI音乐体验区。

音疯展台。

这款由昆仑万维推出的音乐制作平台，特点在：长。
事情职员表示，音乐天生的难点在于保持前后同等性，一旦歌曲超过1分钟，前后的曲风很难保持同等。

因此，音疯的卖点在于，将AI音乐天生的时长拉到了4分钟，并且能够相对保持前后风格的同等性。
用户只须要输入歌词，并且在曲库和人声库中选择喜好的风格，就能天生一段歌曲。

当然，事情职员见告作者，目前音疯利用最高频的场景，也是短视频：）。

HiDream.ai：为电商量身定制的AI生图

HiDream.ai（智象未来）的展台，容身了一批批的责任商家。

这家由前京东探索研究院副院长梅涛成立的AIGC公司，基因里就带着“电商”两个字。
虽然同样是图片天生，HiDream.ai的AIGC创作平台“秩象”，就像集布景、拍摄、后期于一身的商品图事情室。

HiDream.ai的AIGC创作平台“秩象”。

比如，商家只要输入商品图，就能灵巧切换背景、模特。
在为服装天生模特图的过程中，商家乃至能够选择模特姿势、性别、肤色、人种。

月之暗面：视频功能，Kimi怀胎中

人工智能+馆人气最旺的展馆，有Kimi的一席之地。

在一众把图片、音频、视频、3D等模态玩出花的模型中，仍旧主打文本、表格和代码任务的Kimi就稍显朴素。

当然，这并不影响Kimi展台的人气——或者准确来说，是“班味”。

现场不乏有上班族，直接向事情职员讯问笔墨转excel、文件天生报表、文书撰写的方法。
乃至还有企业IT，直接来咨询Kimi API如何接入钉钉、企微和飞书。

Kimi展台。

不过，这款打工神器，也免不了朝着更多模态迭代。
事情职员对作者透露，Kimi的视频功能，已经在路上！

机器人炸场，虚拟人扎堆银河通用：松弛感拉满的机器人售货员

善于“抓”的银河通用机器人Galbot G1，这次走进了未来的无人商超。

消费者在平板高下单后，Galbot G1机器人就会前往货架，准确拿取下单的商品。

Galbot G1。

不过，这位机器人售货员的取货速率，有些太慢了——从下单到接到冰红茶，差不多用了1分钟。
想要进商超，机器人还是得先戒掉这绝佳松弛感。

当然，无人售货只是银河通用展示的个中一个场景。
目前，Galbot G1已经能够精准抓取矿泉水、雨伞等随机放置的物品，还能够闇练开柜门、抽屉和晾衣服。

事情职员表示，2024年Q4，就有希望看到机器人进入真实的商业场景。

清宝：仿真机器人，上流水线搬砖

和披着人皮的机器厂友做同事，立时就要成为现实了。

在清宝机器人的展台，几名不断变换pose的仿真机器人构成了门面——然而，由于眼珠迁徙改变过于灵巧，但表情麻木，这几名机器人还是产生了一些胆怯谷效应。

清宝机器人。

而这几名仿真机器人的浸染，既不是陪伴，也不是做智能导游、机器人主播之类的“文职”，而是直接进工厂！

目前，由于流水线SOP（标准操作流程）比较固定单一，且整机机器人本钱较高，投入真实流水线利用的机器人，大多是单一的机器臂。

据事情职员先容，目前签单的整机人形机器人，在流水线上紧张做的是质检和零件分配，客户给出的情由也很新奇：“想让产线有点温度”。

当然，对付客户而言，机器人带来的温暖，还得在降本增效上。
事情职员对作者表示，机器人一年可以节省20%旁边的人工本钱。

酷开：云电视，捉住AI稻草

“这几年电视行业太难了！
”云电视厂商酷开的员工，上来就倒了满满的苦水。
随着电视机大盘被移动智能产品挤压，云电视厂商的日子也不好过。

不过，2024年以来，酷开算是守得云开见月明——AI是他们捉住的稻草。

酷开在云电视上线的AI OS，支持语音搜索电视剧、电影，以及网络咨询，还能向Chatbot等智能助手一样，给用户推举片单。

比如用语音输入“陈道明演天子的电视剧是什么？”酷开急速显示了搜索结果：《庆余年1、2》《楚汉传奇》《康熙王朝》。

酷如斯电视 AIOS。

值得一提的是，搜索结果显示的演员照片、电视剧剧照，全都是由AI在后台天生的。
酷开事情职员见告作者，这是为了能够精准贴合用户的搜索需求，“比如你的偶像是鹿晗，你想看他的剧，肯定也想看到搜索结果全都是他的照片。
”

不仅如此，酷开也能根据用户的个人喜好，用AI天生片单推举视频。

上线AI OS一个月，酷开就吃到了AI带来的甜头。
事情职员表示，内嵌大模型能力后，利用语音交互功能的用户数量和时长有了明显的提升；与此同时，技能本钱的增加还能掌握在10%以内。

阿里云视频团队：一键给《甄嬛传》配英笔墨幕

一部成熟的电视剧，就该当学会自己给自己配多措辞字幕。

这个美好的愿景，已经被阿里云视频团队实现了。

阿里云视频团队的视频字幕翻译功能。

以往给电视剧配外语字幕，是个大工程。
你须要先把台词转录成中笔墨幕，再翻译成外语。
与此同时，配字幕还免不了用剪辑工具。

如今，基于通义实验室自研的算法，用户已经可以实现“端到端”翻译甄嬛传：不须要给字幕，直接扔视频文件，就能自动配英笔墨幕。

猎聘“多面·doris”：未来，AI给你发offer

第一批数字人口试官，已经上岗了。

猎聘旗下的AI产品“多面·doris”，便是一位在24小时内，口试400多人的AI口试官。

目前，猎聘AI口试有设定问题、智能问答等多种模式。
比如在智能问答环节，AI首先会基于简历，剖析出应聘者的潜在风险点，比如“频繁跳槽”“任职韶光不长”，后续的口试，也大概率会环绕这些问题展开。

猎聘AI口试产品“多面·doris”。

不过，不少口试者反馈，由于缺少即时交互，以及难以从AI口试官的扑克脸中得到反馈，和AI口试反而更紧张了。

末了，事情职员知心提醒，数字人口试官比较适宜一壁、二面等人才的初筛环节。
如果企业想要聘请高端人才，还是由人出马更显诚意！

Motiff 妙多：设计师救星，一句话也能天生UI了

目前海内最懂UI设计的大模型，源自一个叫做Motiff 妙多的团队。

至少须要一周的UI设计，现在被简化成了输入一段话。

用户只需笔墨输入所需的界面类型、组成部分，以及定制化的描述，20秒旁边，就能天生两版UI设计稿。

Motiff AI天生UI。

与此同时，基于自研的UI大模型对布局的理解能力，原有Cmd+V、Cmd+C的重复动作，被Motiff简化成了一步到位的下拉动作。

狼人杀不尽，AI吹又生

除了机器人和数字人，前沿运用馆最随意马虎找到的，该当便是AI狼人杀。

游戏公司巨人网络，就将AI狼人杀，作为投放在抖音、B站上的时令性用户活动。

这些AI NPC的“攻击性”还挺高，玩家发言一旦有逻辑漏洞，就会被“群起而攻之”。

巨人网络AI狼人杀。

这些24小时无休、永久在线的AI NPC，将巨人时令性活动的用户时长，增加了10倍多。

在2018年上线的剧本杀App“百变大侦查”，近一个月也基于通义千问上线了AI剧本杀。

更进一步，玩家可以直接用语音和AI NPC进行对话。
不过，对话的轮次有限定，想要增加对话次数，玩家只能氪金——这也是目前不少AI剧本杀的紧张商业模式。

“百变大侦查”AI剧本杀。

当然，在游戏前加了“AI”两字，并非全是好事。

事情职员见告作者，接入大模型后，技能本钱就提升了不少。
与此同时，团队选择剧本也更为谨慎：太繁芜的本，AI不理解；太大略的本，用户不愿玩。

只能说，AI在进步，人也得随着进步。

欢迎互换！

每期AI知识网

一小时翻译整部甄嬛传AI面试官发offer在杭州看AI落地的1000种弄法

介绍青州SEO行业招聘趋势,机遇与挑战并存

大年夜运号AI卫星明年发射将供应空寰宇一体化互联网做事

每期AI知识网

一小时翻译整部甄嬛传AI面试官发offer在杭州看AI落地的1000种弄法

介绍青州SEO行业招聘趋势,机遇与挑战并存

大年夜运号AI卫星明年发射 将供应空寰宇一体化互联网做事

大年夜运号AI卫星明年发射将供应空寰宇一体化互联网做事