继2023年4月首次推出SAM,实现对图像的精准分割后,Meta于北京韶光7月30日推出了能够分割视频的新模型SAM 2(Segment Anything Model 2)。SAM 2将图像分割和视频分割功能整合到一个模型中。所谓“分割”,是指差异视频中的特定工具与背景,并可以追踪目标。
SAM 2将图像分割能力泛化到了视频领域,其相应能力和准确度是一代的6倍,也是目前最精良的视觉分割模型。Meta AI发布此版本时强调:“相信我们的数据、模型和见地将成为视频分割和干系感知任务的主要里程碑。”
同日,扎克伯格在与黄仁勋的对谈中,透露出更多Meta 的AI进展,包括将推出一款基于Llama3.1模型构建的名为AI Studio的新工具,许可用户创建、分享和设计个性化的AI谈天机器人,用户还可以在社交媒体平台上分享他们的人工智能角色。
“细分统统”
SAM 2可以识别视频中的特定工具,并实时实现该工具的追踪与提取,在视频编辑与殊效制作中,可以高效赞助事情。该模型也可以根据用户详细诉求,选择分割某个物体或某个区域,使掌握更加精准。
与其他模型不同的是,SAM 2拥有对不熟习物体和图像的零样本泛化能力,无需额外演习,只需单击一帧视频中的任何物体,即可实现对目标工具的实时追踪,快速处理未来每一帧。
除此以外,该模型还可以集成到更大的系统中,它长于从其他智能系统中获取提示,使系统之间完成协作。例如,SAM 2能够在AR/VR穿着式设备中选择用户注目工具,也可以读取分割工具的边界框提示,完成文本提示到视频图像分割的转化。
为了演习SAM 2,Meta自己建构了一个数据引擎——SA-V数据集,有效网络大量多样化的视频分割数据集并利用其去迭代模型。SA-V数据集包含5.1万个视频和64.3万个时空分割掩码(即masklet),是迄今为止最大的数据集,网络了47个国家/地区地理分布互异的真实天下场景的视频。SAM 2就在Meta开源的SA-V数据集上进行演习,为SAM 2供应的注释包括全体物体、部分物体和物体被遮挡的情形。
SAM 2模型赞助人类标瞩目标工具的掩码,与此同时,SAM 2将标注的掩码传播到视频其他帧,天生时空掩码,接管提示的SAM 2受益于工具在韶光维度上的影象,天生掩码预测。如此循环往来来往,使SAM 2得到不断更新。业内不雅观点认为,SAM 2为视觉数据供应更快的注释工具,有望被用来演习下一代打算机视觉系统。
对付视频中的动态物体,SAM 2如何精准识别呢?Meta为SAM引入了一种影象机制。对付视频,影象组件可以存储工具的有关交互信息和之前处理过的信息,使SAM 2能够在全体视频中实现预测行为。根据其提示式设计理念,如果在其他帧上供应了干系提示,SAM 2还可以根据存储的工具影象高下文(前后帧)有效地纠正其预测,显著减少人工标注韶光。
Meta官网供应了一个例子,目标工具被遮挡或从视野中消逝。为了向模型阐明这种新的模式,在SAM 2里新运用了“遮挡头”模型,用于预测当前帧中是否存在目标工具,判断物体是否可见,纵然在物体暂时被遮挡时也有助于分割物体,使SAM 2能够有效地处理遮挡。
不过,当碰着永劫光遮挡或者场景中有多个相似工具等情形时,SAM 2可能会丢失对物体的跟踪或是稠浊物体。但同时,以上情形可以通过人为干预供应细化提示来办理。
只管Meta自曝了SAM 2的不敷,用户对该模型的未来依然寄予厚望。
在以往的视频编辑技能中,视频抠图须要一帧一帧地编辑。比如,海内明星真人秀节目数次碰着的“因某明星个人危急,需重新剪辑全部画面”问题,可能不再须要视频剪辑通宵达旦、连续加班。
SAM 2的运用范围广泛,在许多须要实时反馈的运用处景中将发挥其浸染,包括自动驾驶、医学、视频拍摄剪辑、监控等。比如,捕捉动态工具实现实时交互,提高车载打算机视觉系统的敏锐性;在赞助医学治疗中,定位腹腔镜摄像机锚定的区域;在追踪拍照中,帮助无人机镜头跟随追踪濒危动物;在机场、车站人流密度大的区域实时监控人群,预警非常情形;也为视频内容博主供应了更多视频创意创作的可能性。
更好的开源生态
SAM 2也为新模型的涌现埋下伏笔。SAM 2的分割天生结果可以输出给其他AI系统(例如当代视频天生模型),SAM 2本身也可以接管其他AI系统的输入提示,实现与目标工具的实时交互,比如,运用于直播时的AI公众形象搭建,自动驾驶路况剖析等。
为了使学术界能够在目前的根本上连续研究,Meta公开拓布了预先演习的SAM 2模型、SA-V数据集、演示和代码。值得把稳的是,只管须要巨大算力支持,SAM 2仍坚持开源,并许可广大用户免费利用(在Amazon SageMaker平台上托管)。这让Meta弘大的透明开源生态又添一员。
近期,扎克伯格多番强调了人工智能开源的意义,他曾撰写的长文中表示:“开源人工智能比任何其他当代技能都更具有潜力,可以提高人类的生产力、创造力和生活质量,同时还能加速经济增长并推动打破性的医学和科学研究。”
“当本年夜多数领先的科技公司和科学研究都是建立在开源软件之上的。最主要的是,开源人工智能代表了天下上利用这项技能为每个人创造最大经济机会和安全的最佳机会。”扎克伯格补充说。
在与黄仁勋的对谈中,扎克伯格也再次表达了“希望下一代打算机发展回到开放生态系统得胜的场合排场”。
更多内容请下载21财经APP