CVPR 2024最佳论文奖新鲜出炉,天生式AI成最大赢家!

一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技能启示,团队用人类反馈来改进Stable Diffusion等文生图模型。

这项研究来自UCSD、谷歌等,共同一作华南农业大学校友Youwei Liang、清华校友Junfeng He、武大、港中文校友Gang Li。

另一篇Generative Image Dynamics更偏理论一些,提出了一种基于图像空间先验的场景运动建模方法,可用于通过静态图像天生无缝循环视频,还能实现与图像中工具的交互。

CVPR最佳论文被生成式AI占领清华武大年夜华南农大年夜上科校友获奖

这项研究来自谷歌,一作谷歌DeepMind研究员Zhengqi Li(李正奇)。

最佳学生论文奖也一同公布。

一篇BioCLIP: A Vision Foundation Model for the Tree of Life,构建了大规模生物学图像数据集,并提出BioCLIP根本模型来学习生物分类的层次表示。

来自俄亥俄州立大学等,共同一作Samuel Stevens,Jiaman Wu。

另一篇是3D高斯泼溅领域的Mip-Splatting: Alias-free 3D Gaussian Splatting,通过引入3D平滑滤波器、用2D Mip滤波器更换2D膨胀滤波器来肃清伪影和混叠等问题。

来自图宾根大学、上海科技大学等,三位一作Zehao Yu、Anpei Chen(陈安沛)、Binbin Huang皆为上海科技大学在读或毕业生。

今年CVPR的参与规模和受关注度都达到了新高度,在颁奖活动结束后不久,官网就被挤爆了……

OpenAI还在一场活动中现场献上GPT-4o语音和视觉模式的最新Demo。

今年CVPR共收到投稿11532份,比上年增加25%,个中2719篇论文被吸收,吸收率为23.6%,竞争非常激烈。

接下来一起看看获奖论文是如何脱颖而出的。

最佳论文

Rich Human Feedback for Text-to-Image Generation

论文作者来自加利福尼亚大学圣地亚哥分校、谷歌研究院、南加州大学、剑桥大学、布兰代斯大学。

当前文本生图模型天生的图像仍存在失落真、与文本不匹配、美学质量差等问题,而现有评估指标如IS、FID等无法反响单个图像的质量细节问题。

先前一些事情考试测验采集人类偏好或评分作为反馈,但仍旧是单一的整体得分,缺少可阐明性和可操作性。
因此,作者提出了网络丰富的细粒度人类反馈信息,用于更好地评估和改进天生模型。

作者用Stable Diffusion天生的Pick-a-Pic数据集筛选了18K张图像,之后网络了“标注文本描述中与图像不匹配的关键词”、“标记图像中的失落真/不合理区域”等人类反馈信息。
每张图像由3人独立标注,通过均匀/投票等办法合并得到终极反馈标签。

之后,设计了一种基于ViT和T5X的多模态Transformer模型RAHF,利用三种预测器预测上述丰富的人类反馈信息:

利用卷积层和上采样层预测失落真和不匹配的热力争利用卷积层和全连接层预测4个方面的评分利用Transformer解码器天生带有分外token的文本序列,标识不匹配的关键词

实验中,RAHF模型在多个任务上显著优于基线模型,如ResNet-50和CLIP。

此外,作者还探索了三种利用RAHF预测的丰富反馈来改进文本到图像天生模型Muse方法。

利用预测的质量评分筛选优质数据微调Muse模型,天生图像的质量前后比拟如下:

利用预测的失落真热力争天生掩码区域,在该区域内对Muse天生图像进行局部修补,减少了天生图像的失落真问题:

Generative Image Dynamics

论文作者来自谷歌研究院。

自然界中的场景总是在运动,纵然是看似静态的场景也会由于风、水流、呼吸等而产生奇妙的振荡。

论文提出了一种从单张静态图像天生自然振荡动画的新方法,而且支持用户与图中物体进行交互:

团队创造自然场景中的振荡运动,如树叶摆动等,紧张由低频分量组成,因此引入了谱体积作为运动表示,即对视频序列中提取的像素运动轨迹进行傅里叶变换得到的频域表示,只需少量的低频傅里叶系数即可保留大部分运动信息。

然后,作者采取潜变量扩散模型从输入图像预测谱体积,并提出了频率自适应归一化和频率折衷去噪两种策略来提高预测质量。

末了,将预测的谱体积通过逆傅里叶变换转化为运动纹理,并设计了一种基于图像的渲染模块,将输入图像按预测的运动轨迹进行前向渲染,最终生成展现自然振荡运动的动画视频序列。

结合基于图像的渲染模块,这些轨迹可以用于多个运用处景,例如将静态图像转换为无缝循环的视频,或者通过将光谱体积阐明为图像空间模态基底,近似物体动态,让用户能够与真实图片中的物体进行逼真的交互。

作者从定量和定性两方面评估天生视频的质量,结果显示该方法明显优于基准:

末了再来看一下效果:

最佳学生论文

BioCLIP: A Vision Foundation Model for the Tree of Life

论文作者来自俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院。

他们构建了一个大规模生物学图像数据集TreeOfLife-10M,包含1040万张图像,覆盖454103个生物物种,并提出了BioCLIP模型,利用CLIP式的多模态比拟学习目标,结合生物学分类层次构造用TreeOfLife-10M数据集预演习模型。

利用该方法可很好地捕获生物分类体系的层级构造,从而实现对看不见种别样本的泛化能力。

Mip-Splatting: Alias-free 3D Gaussian Splatting

3D高斯溅射展示了令人印象深刻的新颖视图合成结果,达到了高效率和高保真度。
然而,当改变采样率时,例如通过改变焦距或相机间隔,可以不雅观察到强烈的伪影。

团队创造这种征象的根源可归因于缺少3D频率约束和2D膨胀滤波器的利用。

为理解决这个问题,团队引入了一个3D平滑滤波器,根据输入视图引起的最大采样频率来限定3D Gaussian primitive的大小,从而肃清放大时的高频伪影。

此外,用仿照2D盒式滤波器的2D Mip滤波器更换2D膨胀滤波器,可以有效缓解混叠和膨胀问题。

团队还供应了在线演示,感兴趣的可以玩起来了。
https://niujinshuchong.github.io/mip-splatting-demo/

最佳论文:https://arxiv.org/abs/2312.10240https://generative-dynamics.github.io

最佳学生论文:https://arxiv.org/abs/2311.16493https://arxiv.org/pdf/2311.18803

参考链接:[1]https://x.com/CVPR[2]https://x.com/PauloFagundesIA/status/1803446527752278425

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态