1月11日,据外媒宣布,近日,来自Facebook、德克萨斯大学奥斯汀分校和卡内基梅隆大学的研究职员正在探索一种人工智能技能,利用视觉和音频,从一个短视频剪辑中重修一个平面图。
研究职员断言,音频供应了空间和语义旗子暗记,补充了图像的映射能力。他们说,这是由于声音天生是由物体的几何形状所驱动的。声音从表面反射回来,揭示了房间的形状,远远超出了相机的视野。从远处听到的声音,乃至是多个房间之外的声音,可以揭示自由空间的存在,声音物体可能存在。此外,从不同方向听到的声音暴露了基于这些声音所代表的活动或事物的布局。例如,淋浴的声音可能暗示着浴室的方向,而微波炉的声音则暗示着厨房的方向。
研究职员的方法被称为AV-Map,旨在将带有多通道音频的短视频转换成2D楼层平面图。机器学习模型利用音频和视觉数据序列来推理楼层平面图的构造和语义,终极利用解码组件领悟音频和视频信息。AV-Map天生的平面图大大超出了视频中直接可见的区域,显示了划分为离散语义房间标签(如家庭房间和厨房)的自由空间和被占用区域。
该团队在来自Matternet3D和SoundSpaces数据集的数字环境中试验了两种设置,即主动和被动。在第一个实验中,利用一个虚拟摄像机在模型房屋的房间内移动时发出一种已知的声音。在第二种情形下,只依赖家中物体或人自然发出的声音。
研究职员表示,在未来的事情中,将操持考虑扩展多层平面图,并将绘图想法与机器人连接起来,主动掌握摄像头。