视频天生大模型领域迎来主要玩家。
9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,现场发布豆包视频天生-PixelDance、豆包视频天生-Seaweed两款大模型,同时面向企业市场开启邀测。
对付视频天生大模型而言,天生视频的时长十分主要。目前,PixelDanc视频天生时长为5秒或10秒,Seaweed为5秒。火山引擎总裁谭待对时期周报等媒体表示:“视频天生有很多难关亟待打破。火山引擎的上风包含指令遵照能力、运镜(多镜头下主体同等性)等,背后有技能打破和全栈能力等上风。此外,抖音、剪映对视频的理解也是上风。”
谭待认为,视频天生大模型不应只谈论时长,要考虑运用处景,不同场景对时长哀求不同,火山更关注针对不同行业的办理方案。”
值得把稳的是,新款豆包视频天生模型正在即梦AI小范围内测,未来将逐步开放给所有用户。
今年2月,抖音集团原CEO张楠溘然宣告转战剪映,要在剪映推动AI运用。宣告卖力剪映仅一周后,2月16日,OpenAI推出可天生1分钟视频的Sora,让文生视频功能再次火爆环球。与此同时,张楠作为剪映业务卖力人在朋友圈宣告即梦上线,即梦也成为张楠调任后第一次主要的产品更新。
在AI创新巡展上,剪映和即梦AI市场卖力人陈欣然先容了两款APP“AI化”的最新情形。她表示,过去制作类似质量内容须要5-10人团队,包括制作故事线、打磨殊效、包装剪辑等,协作流程繁芜,制作周期长达1-2个月,还需大量金钱和资源投入。但在AI帮助下,大部分创作者一人就能完成创作,制作时长也缩减至1-2周。
谭待也在演讲中提到:“视频天生有很多难关亟待打破。豆包两款模型会持续演进,在办理关键问题上探索更多可能性,加速拓展AI视频的创作空间和运用落地。”
无论如何,豆包视频天生大模型出身并在即梦和剪映中利用,意味着字节跳动在用AI卷起视频“老本行”的道路上往前更近了一步。
图源:时期周报现场摄
可自由切换镜头
据火山引擎现场先容,豆包大模型的利用量在连忙增长。
截至9月,豆包措辞模型的日均tokens利用量超过1.3万亿,比较5月首发时增长十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。
在弘大的用户利用量下,豆包大模型再次带来新变革。不仅新增视频天生模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖措辞、语音、图像、视频等全模态。
此前,视频天生模型大多只能完成大略指令,豆包视频天生模型则能实现自然连贯的多拍动作与多主体繁芜交互——不仅能够遵照繁芜指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节乃至头饰在不同运镜下也保持同等,靠近实拍效果。
豆包视频天生模型基于DiT架构,通过高效的DiT领悟打算单元,让视频在大动态与运镜中自由切换,拥有变焦、环抱、平摇、缩放、目标跟随等多镜头措辞能力。“这意味着豆包天生的视频占领了多景别切换的同等性难题,在镜头切换时可同时保持主体、风格、氛围的同等性,这也是豆包视频天生模型独树一帜的技能创新。”谭待表示。
关于模型未来的方向,谭待表示火山引擎更关注基于现有模型更好地落地和加速创新,“技能要知足用户需求,新老技能要不断调度适配。大模型的成熟标准是孵化后用户体验过且有一定体量的真实且较好的反馈,而不是实验室里的反馈。比如即梦、豆包都有大量内测,用户反馈是主要评测标准。”
此前,豆包大模型定下低于行业99%的token定价,率先卷起贬价潮的火山引擎。目前,豆包视比年夜模型的利用定价尚未公布。谭待对时期周报等媒体表示,视频模型和措辞模型运用处景不同,定价逻辑也不同,要考虑“新体验-老体验-迁移本钱”,终极能否广泛运用取决于比以前的生产力ROI提升多少。
图源:即梦官网
探索AI原生产品
此前,即梦的普通用户已可以天生3秒的AI短视频,VIP用户则可以延长3秒。
今年3月开始,剪映密集更新AI功能,如智能字幕、视频翻译等功能。并且还与抖音打通,对利用剪映AI功能的短视频进行流量和现金褒奖扶持,例如精良作品可得到DOU+500元/条的流量扶持。当前,剪映的VIP会员定价为1年218元,均匀每月18.17元,即梦的VIP会员月费则为69元。
在AI创新巡展上,陈欣然提到“已将豆包大模型的干系技能运用在剪映、即梦AI和醒图”,并先容了AI技能运用下的新功能。
如数字分身运用,可基于音色克隆技能在剪映上线定制数字人音色克隆功能。制作数字人只需录制或上传一段3分钟的高清正面视频,音色克隆只需5秒声音输入,就能天生自然流畅、毫无违和感的声音,还能做各种措辞的翻译。“我们很关注隐私和安全问题,在产品设计和技能层面哀求用户本人确认,也会关注行业新规,提升做事安全性和可靠性。”陈欣然说道。
此外,还有针对电商商家的“内容营销”创作神器。过去,商家可能要花几个小时刷抖音和TikTok剖析爆款带货视频套路,拆解套路、仿写文案,还要花几个小时剪辑,现在只需几分钟,只要填写商品名、上传素材或者粘贴商品页链接,就能一键天生多个不同风格的带货视频。
陈欣然特殊提到,除了在已有产品上运用AI,剪映也在探索GenA(天生式人工智能)I时期下AI native(AI原生)产品的可能性,“即梦ai便是这个方向的探索产品,目前正在接入两款视频天生大模型,进行内测的场景打磨和效果打磨。我们认为,创作不应受制作本钱、风格或者文化背景的限定,它该当是有趣的、快乐的、自由的。”
谭待也表示,大模型的运用本钱已经得到很好办理,“大模型要从卷价格走向卷性能,卷更好的模型能力和做事。”