20 分钟?一小时?半天?

在火山引擎算法工程师眼里,可能 1 分钟都用不了,由于会有 AI 替你完成。

没错,火山引擎近期推出了一款「创意互动 vlog」产品,你只须要在进入景区时注册授权,AI 就会帮你拍摄嬉戏中的精彩画面,自动剪辑成旅行 vlog。

全程无需自己动手,无需费心选择拍摄地点,无需请他人帮忙拍摄,乃至嬉戏时不用取出手机或相机,也不用纠结修图美颜,你只需负责享受这段经历,还没出大门,就能得到一条可以直接颤动音的视频。

不到1分钟帮你剪完不雅光vlog火山引擎全新AI神器真的这么绝

来看看效果:

视频加载中...

「创意互动 vlog」前不久在 2023 春季火山引擎 FORCE 原动力大会正式发布,目前已在海内各地多个景区上线。

这款产品的背后,是一支奔着各大旅游景区到处跑的字节内部创业团队。

拿着「锤子」的算法工程师,遇见找到「钉子」的产品

2022 年初,火山引擎算法工程师容荣研究出了这样一项技能:

「在特定的场景里支配一些不同机位的拍摄装置,用图像识别找到场景里的人,配上专业视频编导设计的模版,就可以自动把这个人的影像剪成视频。

那么,这个「特定的场景」该当是什么场景呢?

和所有的技能创业者一样,容荣拿着这个技能的「锤子」,开始探求运用处景的「钉子」。

她先想到的是儿童兴趣班,比如一些培训机构供应的轮滑课、舞蹈课等场景,拍摄孩子们快乐学习的视频。

但容荣很快创造,这类培训机构市场零散、没有规模化,很难找到得当的客户来落地。

不久之后,火山引擎 AI 产品办理方案同学孟兰创造:

「将抖音的 AI 技能和文旅行业结合,合营抖音平台的上风,用 AI 来做旅行视频。

而视频设计团队也希望有创新的视频生产办法。
团队一拍即合,确定了这种 AI为景区游客拍摄剪辑 vlog 的落地方式,随即组成了一个包含算法、研发、产品、设计、编导、发卖平分歧角色在内的跨部门内部创业团队。

为了锁定飞驰的滑雪者,算法工程师自己设计滑雪服

孟兰说,to B 项目的落地须要边做产品、边找早期客户,针对早期客户的场景做优化,不至于闭门造车。
「创意互动 vlog」产品的一个主要的早期客户是一家滑雪场。
和这家滑雪场的磨合中,技能团队完成了大量迭代。

个中紧张的技能问题是,当景区的拍摄装置拍下了许多视频后,如何把同一个人的部分找出来?

容荣先想到的是用图像识别结合 RFID 的方案。

RFID 全称 Radio Frequency Identification,译名射频识别。
就像门禁卡一样,在一个专门的 RFID 手环上绑定游客信息,那么无论他走到哪里,刷一下卡,系统就能认出他是谁。

但团队去景区出差之后才创造,这种方案实在太繁芜了:景区事情职员须要先把手环发给游客,然后游客绑定自己的身份,嬉戏结束后还要统一回收手环。
而且手环的本钱比较高,这种方法又麻烦、又昂贵。

于是,容荣决定改方案,保留图像识别的部分,删去 RFID 手环,而是在景区设置可交互的大屏幕,提示用户面向屏幕做一些比心、微笑、竖起大拇指、叉腰之类的表情动作。
这种方案既可以借助用户姿态来确认身份,又可以增加殊效、美颜等效果。

针对滑雪场景,容荣也做了很多优化。
由于须要人物滑雪的照片作为模型演习的数据集,她拉着工位阁下的几位同学跑到字节跳动深圳湾办公楼下,穿着厚厚的滑雪服拍摄照片;后来还有同学联系到了一家滑雪俱乐部,请专业人士用更标准的姿势来拍照。

不过,有了演习数据,想准确地辨识人物依然有困难。

一是滑雪本身便是高速运动,随意马虎拍不清楚;二是滑雪场有时风大雪大、阳光不好,视频会更模糊;三是雪道很长,拍摄装置很多,想要在不同拍摄装置拍摄的视频中找到同一个人,是一个技能上很难的问题。

为此,容荣干脆自己设计了一款新的滑雪服:

在胸前、肩膀等部位放置特定的编号,滑雪游客租用带有编号的滑雪服,算法只要识别出编号,就能知道是哪位游客了。

这样,结合姿态特色与滑雪服上的编号,利用「多模态聚类算法」就能准确的找到特定的游客。

来看看 AI 天生的滑雪 vlog 效果:

视频加载中...

过山车跑的那么快,如何决定剪哪一段?

“实在我们一开始不想做滑雪场景,由于蹭的一下就滑过去了,速率太快,人群也很密集,算法不好锁定人物。
但到了景区才创造,滑雪游客非常喜好这类 vlog 做事。
”容荣说。

以是,后来团队事情的一大重点就放在了滑雪、过山车、蹦极这类极限场景下。

玩这类项目时,游客最希望视频记录的是全体过程中最刺激的时候,但这时游客表情非常激动,算法难以识别。

算法工程师容荣再次灵光一现:图像不好识别的话,那识别声音试试呢?

“风声代表速率,人声代表情绪。
玩这种刺激项目的时候,一个人嗓门越大,解释他越激动;但也有人完备不叫喊,那我们就识别风声,风声越大解释速率越快、人的体验越刺激。

极限场景惊险刺激的时候、俏丽风光让民气境大好的时候、运动场景中表现精良的时候,都被项目团队定义为了「高光时候」,这是游客最深刻的影象,也是最值得被视频记录的瞬间。

因此,项目算法团队与设计团队一起定义了一套「高光识别算法」,集成了人体手势、动作识别、人物关系检测等多种 AI 算法,能够根据场景动态捕捉游客的高光时候,景区运营者也可以根据时令、活动等自由定制。

深入一线,感想熏染不同地区的风霜雨雪

无论是滑雪场、游乐园还是博物馆,探索每种新嬉戏场景时,项目团队组团出差去现场,理解每个场景的细节特点。

线下能创造许多在办公室里闭门造车创造不了的问题,技能同学则可以改技能方案,产品经理则可以理解景区运营状况、游客动线、景致最美的位置、游客聚拢的地点,理解景区管理者的经营操持。

有一次,大家组团去滑雪场出差时,正遇上了寒冬尾月,下着鹅毛大雪,连雪道都结冰了。
创意互动 vlog 团队的产品、研发、设计们,和当地的安装师傅一起扛着摄影机和安装工具爬到雪坡上,探求得当的安装位置。

作为项目的算法卖力人,容荣须要做很多深入一线的事情。
在安装摄像头的过程中,她须要当场根据图像质量、晨昏光芒、人体在画面中的大小来判断这个位置拍出来的图像能不能用,针对现场场景采集数据、当场优化这个场景的算法准确率。

但完成当天的现场事情之后,一群人站在雪坡顶上傻眼了:

除了 AI 产品办理方案同学孟兰之外,其他人都不会滑雪。

于是,一副奇特的景象发生了:大雪纷飞的滑雪场,一群人半夜十点坐在雪坡上逐步往下滑,有人的睫毛上都冻上了冰晶,有人滑到山下后,站起来却创造裤子都被磨到反光。

就这样,一年多里,创意互动 vlog 团队的同学们一贯在产品培植的路上。

他们探索滑雪场、游乐场、打卡地等各种不同类型的园区,一边优化产品,一边提升技能,一边跑通了商业落地。

AI 产品办理方案同学孟兰说,当每一类场景率先跑通一个标杆景区后,就可以方便地将不同场景的办理方案复用,低边际本钱做事其他同类景区。

“我们在滑雪这个场景的履历至少领先市场 1.5 年,由于你须要足够漫长的冬天去摸索这些履历。

而火山引擎的技能同学们,也正在不同的 B 端业务场景下,持续探索创新,用技能赋能千行百业。