CVPR2024最佳论文奖项出炉！谷歌和UCSD等2篇获最佳论文，图宾根和OSU等2篇获最佳学生论文

刚刚，CVPR 2024 正式公布了最佳论文、最佳学生论文等奖项。来自谷歌、美国·加州大学圣迭戈分校等2篇论文获得了最佳论文奖，来自德国·图宾根大学和OSU的研究者获得了最佳学生论文奖。

2024 年 CVPR （Computer Vision and Pattern Recogntion Conference) 即国际计算机视觉与模式识别会议，于6月17日至21日正在美国西雅图召开。2024 年，今年共提交了11532份有效论文，2719篇论文被接收，录用率为23.6%。

最佳论文奖项：

最佳论文

Generative Image Dynamics

Google Research （美国·谷歌研究院 ) https://generative-dynamics.github.io/

摘要：我们提出了一种建模场景运动图像空间先验的方法。我们的先验是从真实视频序列中提取的一系列运动轨迹中学习得到的，这些视频展示了自然的、振荡的动态，比如树木、花朵、蜡烛和在风中摇曳的衣服。我们在傅里叶域中建模了这种密集的、长期的运动先验：给定一张单独的图像，我们训练的模型使用频率协调的扩散抽样过程来预测一个频谱体积，可以将其转换为跨越整个视频的运动纹理。除了基于图像的渲染模块，这些轨迹还可以用于许多下游应用，比如将静止图像转换为无缝循环的视频，或者通过将频谱体积解释为图像空间的模态基础来让用户在真实图片中与对象进行真实交互，从而近似对象动态。

Rich Human Feedback for Text-to-lmage Generation

University of California, San Diego （美国·加州大学圣迭戈分校） https://arxiv.org/abs/2312.10240

近期的文本到图像（T2I）生成模型，如 Stable Diffusion 和 Imagen，在基于文本描述生成高分辨率图像方面取得了显著进展。然而，许多生成的图像仍然存在问题，例如伪影/不合理性、与文本描述不一致以及美学质量低下。受到强化学习与人类反馈（RLHF）在大型语言模型中的成功启发，之前的研究收集了人类提供的图像评分反馈，并训练了一个奖励模型来改进 T2I 生成。在本文中，我们通过以下方式丰富了反馈信号：（i）标记与文本不一致或不合理的图像区域，以及（ii）注释文本提示中被误述或缺失的单词。我们收集了在18K个生成的图像（RichHF-18K）上提供这样丰富的人类反馈，并训练了一个多模态 Transformer 来自动预测丰富的反馈。我们展示了预测的丰富人类反馈可以用于改进图像生成，例如通过选择高质量的训练数据来微调和改进生成模型，或者通过创建具有预测热图的掩码来修复问题区域。值得注意的是，这些改进适用于超出用于收集人类反馈数据的图像生成模型（Stable Diffusion变体）的模型（Muse）。

最佳学生论文**

Mip-Splatting: Alias-free 3D Gaussian Splatting

University of Tübingen （德国·图宾根大学）

https://github.com/autonomousvision/mip-splatting（代码已开源）

摘要：进来，3D高斯点染已经展示出令人印象深刻的新视角合成结果，达到了高保真度和高效率。然而，在改变采样率（例如，通过改变焦距或相机距离）时，可以观察到明显的伪影。我们发现，这种现象的源头可以归因于缺乏 3D 频率约束和使用 2D 膨胀滤波器。为了解决这个问题，我们引入了一个 3D 平滑滤波器，该滤波器基于输入视图引起的最大采样频率约束了 3D 高斯基元的大小，消除了放大时的高频伪影。此外，用 2D Mip 滤波器替换 2D 膨胀，这模拟了 2D 盒滤波器，有效地减轻了混叠和膨胀问题。我们的评估，包括在单尺度图像上进行训练并在多个尺度上进行测试的情况，验证了我们方法的有效性。

BioCLlP: A Vision Foundation Model for the Tree of Life

The Ohio State University （美国·俄亥俄州立大学） https://imageomics.github.io/bioclip/（数据代码已开源） https://arxiv.org/abs/2311.18803 摘要：从无人机到个人手机，收集到的自然界图像越来越丰富，成为了生物信息的重要来源。针对从图像中提取与生物学相关信息的科学和保护需求，计算方法和工具（尤其是计算机视觉方法）如雨后春笋般涌现。然而，大多数方法都是为特定任务而设计的定制方法，并不容易适应或扩展到新的问题、背景和数据集。针对图像上的一般性生物学问题，我们急需一个视觉模型。为了解决这个问题，我们策划并发布了 TreeOfLife-10M，这是迄今为止最大、最多样化的 ML 准备好的生物图像数据集。然后，我们开发了 BioCLIP，这是一个基于生命树的基础模型，利用了 TreeOfLife-10M 所捕捉到的生物学的独特属性，即植物、动物和真菌的图像丰富多样，以及丰富的结构化生物学知识。我们对我们的方法进行了严格的基准测试，涉及到多样化的细粒度生物分类任务，并发现 BioCLIP 在各项任务中始终表现出色，显著优于现有的基线方法（绝对优势达到16%到17%）。内在评估表明，BioCLIP 已学会了符合生命树的分层表示，揭示了其强大的泛化能力。 其他奖项