CVPR 2022 - 专知主题

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

重要节点

● 3月1日——录用论文发布（共录用2067篇，接受率2067/8161 = 25.33%）（https://cvpr2022.thecvf.com/sites/default/files/2022-03/accepted_papers.txt）

录用论文（持续更新）

1.【基于联合表示学习和在线聚类的无监督活动分割】Unsupervised Activity Segmentation by Joint Representation Learning and Online Clustering
● 论文摘要：提出了一种新的无监督活动分割方法，它使用视频帧聚类作为前置任务，同时执行表示学习和在线聚类。这与通常按顺序执行表示学习和聚类的先前工作形成对比。作者通过采用时间最优传输来利用视频中的时间信息，将保留活动时间顺序的时间正则化项合并到用于计算伪标签集群分配的标准最优传输模块中。时间最优传输模块使得本文方法能够学习无监督活动分割的有效表示。此外，与之前需要在离线聚类之前存储整个数据集的学习特征的方法相比，本文方法可以通过在线方式一次处理一个小批量。
● 论文链接：https://arxiv.org/abs/2105.13353
● 论文视频：https://www.youtube.com/watch?v=i4Fh_3nzzUI&t=12s
● 作者单位：美国Retrocausal公司
2.【基于点的神经辐射场】Point-NeRF: Point-based Neural Radiance Fields
● 论文摘要：像NeRF这样的体积神经绘制方法可以生成高质量的视图合成结果，但对每个场景都进行了优化，导致重建时间过长。另一方面，深度多视图立体方法可以通过直接的网络推理快速重建场景几何。point - nerf结合了这两种方法的优点，使用神经三维点云，与相关的神经特征，以模拟一个亮度场。point - nerf可以在基于光线行进的渲染管道中，通过聚集近场景表面的神经点特征来有效地渲染。此外，通过预先训练的深度网络的直接推理，可以初始化point - nerf生成神经点云;这个点云可以微调，超过NeRF的视觉质量，以更快的30倍的训练时间。Point-NeRF可以与其他三维重建方法相结合，并通过一种新的剪枝和生长机制来处理这些方法中的错误和异常值。
● 论文主页：https://xharlie.github.io/projects/project_sites/pointnerf/
● 论文链接：https://arxiv.org/pdf/2201.08845.pdf
● 论文代码：https://github.com/Xharlie/pointnerf
● 作者单位：南加州大学、adobe研究院
3.【机器人对象重排的迭代流最小化】IFOR: Iterative Flow Minimization for Robotic Object Rearrangement
● 论文摘要：在非结构化环境中，精确的视觉对象重排是现实世界中广泛应用的一个关键问题。提出了执行，迭代流最小化机器人物体重排，一个端到端的方法，以解决未知物体在给定原始和最终场景的RGBD图像下的物体重排问题。首先，学习了一种基于RAFT的光流模型，通过纯合成数据来估计物体的相对变换。然后，这个流程被用于迭代最小化算法，以实现之前看不见的对象的精确定位。至关重要的是，我们表明我们的方法适用于混乱的场景，在现实世界中，而只是在合成数据上进行训练。
● 论文链接：https://arxiv.org/abs/2202.00732
● 论文代码：（待更新）
● 论文主页：https://imankgoyal.github.io/ifor.html
● 作者单位：NVIDIA、普林斯顿大学、卡耐基梅隆大学
4.【无界抗锯齿神经辐射场】Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
● 论文摘要：虽然神经辐射场(NeRF)在物体和空间的小边界区域上展示了令人印象深刻的视图合成结果，但它们在“无边界”场景上却很困难，在这种场景中，摄像机可能指向任何方向，内容可能存在于任何距离。在这种背景下,现有NeRF-like模型往往会产生模糊或低分辨率的效果图(由于不平衡的细节和规模附近和远处的物体),慢火车,可能表现出构件由于固有的歧义的任务重建一套大型场景从一个小的图像。我们提出了mip-NeRF的一种扩展(一种处理采样和混叠的NeRF变体)，它使用非线性场景参数化、在线蒸馏和一种新的基于扭曲的正则化来克服无界场景带来的挑战。我们的模型，我们称之为“mip-NeRF 360”，因为我们的目标场景中，摄像机围绕一个点旋转360度，与mip-NeRF相比，减少了54%的均方误差，并能够为高度复杂的、无限的真实世界场景生成真实的合成视图和详细的深度地图。
● 论文链接：https://arxiv.org/abs/2111.12077
● 论文代码：（待更新）
● 论文视频：https://www.youtube.com/watch?v=zBSH-k9GbV4
● 作者单位：google、哈佛大学
5.【用于理解三维点云的自监督交叉模态对比学习】CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understandings
● 论文摘要：由于点云的不规则结构，人工标注大规模点云数据集用于三维目标的分类、分割和检测等各种任务往往非常费力。自我监督学习，无需任何人类标签，是解决这个问题的一个有前途的方法。我们在现实世界中观察到，人类能够将从2D图像中学习到的视觉概念映射到3D世界中。受此启发，我们提出了CrossPoint，一种简单的跨模态对比学习方法，用于学习可转移的3D点云表示。它通过最大化点云和相应的在不变空间中渲染的2D图像之间的一致性来实现物体的3D-2D对应，同时鼓励点云形态中转换的不变性。我们的联合训练目标结合了模式内和模式间的特征对应，从而以一种自我监督的方式集成了来自3D点云和2D图像模式的丰富学习信号。实验结果表明，我们的方法在不同的下游任务中，包括三维对象分类和分割，优于以往的无监督学习方法。此外，消融研究验证了我们的方法在更好地理解点云方面的潜力。
● 论文链接：https://arxiv.org/abs/2203.00680
● 论文代码：https://github.com/mohamedafham/crosspoint
● 数据集：ShapeNet,ModelNet
● 论文视频：（待更新）
● 作者单位：莫拉图瓦大学、悉尼佛大学

6.【从许多休闲视频中构建可动画的3D神经模型】BANMo: Building Animatable 3D Neural Models from Many Casual Videos
● 论文摘要：之前关于铰接式三维形状重建的工作通常依赖于专门的传感器(如同步多摄像机系统)，或预先构建的三维可变形模型(如SMAL或SMPL)。这些方法不能扩展到野外的不同对象集。我们提出BANMo，一种既不需要专门的传感器也不需要预定义的模板形状的方法。BANMo在一个可区分的渲染框架中，从许多单目休闲视频中构建高保真、铰连的3D模型(包括形状和动画皮肤权重)。虽然许多视频的使用提供了更多的摄像机视图和物体清晰度的覆盖，但它们在建立不同背景、光照条件等场景之间的对应关系方面带来了重大挑战。我们的主要观点是融合三个学派的思想;(1)利用关节骨和混合皮肤的经典变形形状模型，(2)适用于基于梯度的优化的体积神经辐射场(NeRFs)，以及(3)生成像素和关节模型之间对应的规范嵌入。我们引入神经混合蒙皮模型，允许可微和可逆铰接变形。当与规范嵌入相结合时，这样的模型允许我们在视频之间建立密集的对应关系，这些对应关系可以通过周期一致性进行自我监督。在真实数据集和合成数据集上，BANMo展示了比之前的人类和动物作品更高保真度的3D重建，能够从新颖的视角和姿势呈现逼真的图像。
● 论文主页：https://banmo-www.github.io/
● 论文链接：https://arxiv.org/abs/2112.12761
● 论文代码：https://github.com/facebookresearch/banmo
● 数据集：AMA
● 论文视频：https://banmo-www.github.io/cats.html
● 作者单位：Meta、卡耐基梅隆大学

7.【隐形衣人从正常人身上获得】ICON: Implicit Clothed humans Obtained from Normals
● 论文摘要：目前，学习逼真的、可动画的3D服装化身的方法，要么是3D扫描，要么是2D图像，仔细控制用户的姿势。相比之下，我们的目标是通过2D图像了解人物的形象。给定一组图像，我们的方法从每幅图像中估算出详细的3D表面，然后将它们组合成一个可动画的化身。隐式函数非常适合第一个任务，因为它们可以捕捉头发或衣服等细节。然而，目前的方法对各种各样的人体姿态都不稳定，而且常常产生骨折或脱离身体的肢体、缺失细节或非人类形状的3D表面。问题是这些方法使用的全局特征编码器是敏感的全局姿态。为了解决这个问题，我们提出了ICON(“从法线中获得的隐含衣人”)，它使用了局部特征。ICON有两个主要模块，它们都利用了SMPL(-X)主体模型。首先，ICON以SMPL(-X)正常人为条件，推断出人体的详细服装(正面/背面)。其次，一个可见性感知的隐式表面回归器产生一个人类占有场的等表面。重要的是，在推理时，一个反馈循环在使用推断穿衣法线细化SMPL(-X)网格和细化法线之间交替进行。给定一个主体在不同姿势下的多个重建帧，我们使用SCANimate来产生一个可动画的化身。对AGORA和CAPE数据集的评估表明，即使在训练数据非常有限的情况下，ICON在重建方面的表现也优于目前的技术水平。此外，它对非分布样本更加健壮，例如在野外的姿势/图像和帧外裁剪。ICON从野外的图像中向强大的3D人体重建迈出了一步。这使得可以直接从视频中创建具有个性化和自然姿势依赖的布料变形的化身。
● 论文主页：https://icon.is.tue.mpg.de/
● 论文链接：https://arxiv.org/abs/2112.09127
● 论文代码：https://github.com/YuliangXiu/ICON
● 数据集：AGORA
● 论文视频：https://youtu.be/ZufrPvooR2Q
● 作者单位：马克斯·普朗克智能系统研究所

8.【可控图像合成与编辑的合成生成先验学习】SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing
● 论文摘要：最近的研究表明，StyleGANs为图像合成和编辑的下游任务提供了有前途的预先模型。然而，由于StyleGANs的潜代码是设计来控制全局样式的，因此很难对合成的图像实现细粒度的控制。我们提出了SemanticStyleGAN，它训练一个生成器分别建模局部语义部分，并以合成的方式合成图像。不同局部部位的结构和纹理由相应的潜码控制。实验结果表明，我们的模型提供了不同空间区域之间的强解纠缠。当与为StyleGANs设计的编辑方法相结合时，它可以实现更细粒度的控制来编辑合成的或真实的图像。该模型还可以通过迁移学习扩展到其他领域。因此，作为一个具有内置解纠缠的通用先验模型，它可以促进基于gan的应用程序的开发，并支持更多潜在的下游任务。
● 论文主页：https://semanticstylegan.github.io/
● 论文链接：https://arxiv.org/abs/2112.02236
● 论文代码：（待更新）
● 数据集：FFHQ，DeepFashion
● 论文视频：https://semanticstylegan.github.io/videos/demo.mp4
● 作者单位：字节跳动

9.【基于归一化切割的无监督对象发现的自监督Transformer】Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut
● 论文摘要：使用自蒸馏损失(DINO)进行自监督学习训练的变形金刚已经被证明可以生成突出突出前景物体的注意力地图。在本文中，我们演示了一种基于图的方法，它使用自监督Transformer特性从图像中发现对象。视觉标记被视为加权图中的节点，其边表示基于标记相似性的连接性得分。然后，前台对象可以使用一种归一化的图形分割来分组自相似的区域。我们利用谱聚类和广义特征分解来解决图切割问题，并表明第二最小特征向量提供了切割解决方案，因为它的绝对值表明令牌属于前景对象的可能性。尽管这种方法很简单，但它显著提高了无监督对象发现的性能:我们在VOC07、VOC12和COCO20K上比最新的LOST技术分别提高了6.9%、8.1%和8.1%。通过添加第二阶段的类无关检测器(CAD)，可以进一步提高性能。我们提出的方法可以很容易地推广到无监督显著性检测和弱监督目标检测。对于无监督显著性检测，我们将ECSSD、DUTS、DUT-OMRON上的IoU分别提高了4.9%、5.2%、12.9%。对于弱监督目标检测，我们在CUB和ImageNet上实现了竞争性能。
● 论文主页：https://www.m-psi.fr/Papers/TokenCut2022/
● 论文链接：https://arxiv.org/abs/2202.11539
● 论文代码：https://github.com/YangtaoWANG95/TokenCut
● 数据集：ImageNet，COCO
● demo：https://huggingface.co/spaces/akhaliq/TokenCut
● 作者单位：格勒诺布尔阿尔卑斯大学、腾讯AI实验室、三星AI中心、MIT等

10.【Swin Transformer V2：扩展容量和分辨率】Swin Transformer V2: Scaling Up Capacity and Resolution
● 论文摘要：我们提供了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1,536×1,536分辨率的图像进行训练。通过扩大容量和分辨率，Swin Transformer在四个有代表性的视觉基准上创下了新的记录:ImageNet-V2图像分类84.0%的top-1精度，COCO对象检测63.1/54.4 box/mask mAP, ADE20K语义分割59.9 mIoU, kinetic400视频动作分类86.8%的top-1精度。我们的技术一般适用于扩大视觉模型，但没有像NLP语言模型那样得到广泛的探索，部分原因是在培训和应用方面存在以下困难:1)视觉模型在尺度上经常面临不稳定性问题，2)许多下游视觉任务需要高分辨率的图像或Windows，目前尚不清楚如何有效地将在低分辨率下训练的模型转换为高分辨率的模型。当图像分辨率较高时，GPU内存消耗也是一个问题。为了解决这些问题，我们提出了几个技术，并以Swin Transformer为例进行了说明:1)后归一化技术和缩放余弦注意方法，以提高大视觉模型的稳定性;2)对数间隔连续位置偏置技术，有效地将在低分辨率图像和Windows下训练的模型传递给高分辨率的对应模型。此外，我们分享了我们的关键实现细节，这将导致显著节省GPU内存消耗，从而使使用常规GPU训练大型视觉模型成为可能。通过使用这些技术和自我监督的预训练，我们成功地训练了强大的3B Swin Transformer模型，并有效地将其转换到涉及高分辨率图像或窗口的各种视觉任务，在各种基准上实现了最先进的精度。
● 论文链接：https://arxiv.org/abs/2111.09883
● 论文代码：https://github.com/microsoft/Swin-Transformer
● 数据集：ImageNet，COCO
● 作者单位：微软亚洲研究院

11.【野外时钟模拟阅读】It's About Time: Analog Clock Reading in the Wild
● 论文摘要：在这篇论文中，我们提出了一个框架来阅读模拟时钟在自然图像或视频。具体来说，我们做出了以下贡献:首先，我们创建了一个可伸缩的管道来生成合成时钟，大大减少了对劳动密集型注释的需求;其次，提出了一种基于空间变压器网络(STN)的时钟识别体系结构，对其进行端到端的时钟校准和识别。我们表明，在提出的合成数据集上训练的模型以良好的精度推广到真实时钟，倡导Sim2Real训练制度;第三，为了进一步缩小模拟和真实数据之间的差距，我们利用时间的特殊属性，即均匀性，在真实的无标签时钟视频上生成可靠的伪标签，并表明对这些视频的训练提供了进一步的改进，同时仍然不需要手工标注。最后，我们介绍了三种基于COCO、Open Images和The Clock电影的基准数据集，共4472幅带有时钟的图像，对时间进行了完整的注释，精确到分钟。
● 论文主页：https://charigyang.github.io/abouttime/
● 论文链接：https://arxiv.org/abs/2111.09162
● 论文代码：https://github.com/charigyang/itsabouttime
● 数据集：COCO
● 作者单位：牛津大学

12.【一种新颖的单对变压器的人机交互两阶段有效检测】Efficient Two-Stage Detection of Human–Object Interactions with a Novel Unary–Pairwise Transformer
● 论文摘要：最近在transformer模型的可视化数据的发展已经导致了识别和检测任务的显著改进。特别是，使用可学习查询代替区域建议已经产生了一类新的单阶段检测模型，其先锋是Detection Transformer(DETR)。自那以来，这种单阶段方法的变体一直主导着人机交互(HOI)检测。然而，这种单级HOI探测器的成功很大程度上归功于变压器的表现能力。我们发现，当配备相同的变压器时，两级变压器的性能和内存效率更高，同时训练时间更短。在这项工作中，我们提出了一元-两两变压器，一个二级检测器，利用一元和两两表示的HOIs。我们观察到，变压器网络的一元部分和两两部分是专一的，前者优先增加正面例子的分数，后者则减少负面例子的分数。我们在HICO-DET和V-COCO数据集上评估了我们的方法，并显著优于最先进的方法。在推理时，我们使用ResNet50的模型在单个GPU上接近实时性能。
● 论文主页：https://fredzzhang.com/unary-pairwise-transformers/
● 论文链接：https://arxiv.org/pdf/2112.01838.pdf
● 论文代码：https://github.com/fredzzhang/upt
● 作者单位：澳大利亚国立大学、牛津大学、澳大利亚机器人视觉中心

13.【鲁棒等变成像:一个学习从噪声和部分测量中成像的完全无监督框架】Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements Transformer
● 论文摘要：深度网络在从医学成像到计算摄影的多重成像逆问题中提供了最先进的性能。然而，大多数现有的网络都是用干净的信号训练的，这通常很难或不可能获得。等变成像(EI)是一种最新的自我监督学习框架，它利用信号分布中的群体不变性，仅从部分测量数据学习重构函数。虽然EI的结果令人印象深刻，但它的性能随着噪声的增加而下降。在本文中，我们提出了一个鲁棒等变成像(REI)框架，它可以学习图像从噪声部分测量单独。该方法使用Stein’s Unbiased Risk Estimator (SURE)来获得对噪声具有鲁棒性的完全无监督训练损失。我们表明，REI在线性和非线性逆问题上带来了可观的性能增益，从而为深度网络的鲁棒无监督成像铺平了道路。
● 论文链接：https://arxiv.org/pdf/2111.12855.pdf
● 论文代码：https://github.com/edongdongchen/REI
● 作者单位：爱丁堡大学

14.【使用多模态Transformer的端到端视频对象分割】End-to-End Referring Video Object Segmentation with Multimodal Transformer
● 论文摘要：参考视频对象分割任务 (RVOS) 涉及在给定视频的帧中分割文本参考对象实例。由于这种多模式任务的复杂性，它结合了文本推理、视频理解、实例分割和跟踪，现有方法通常依赖复杂的管道来解决它。在本文中，我们提出了一种简单的基于 Transformer 的 RVOS 方法。我们的框架称为多模态跟踪变压器 (MTTR)，将 RVOS 任务建模为序列预测问题。随着计算机视觉和自然语言处理的最新进展，MTTR 是基于这样一种认识，即视频和文本都可以通过单个多模态 Transformer 模型有效而优雅地一起处理。 MTTR 是端到端可训练的，没有与文本相关的感应偏置组件，并且不需要额外的掩码细化后处理步骤。因此，与现有方法相比，它大大简化了 RVOS 管道。对标准基准的评估表明，MTTR 在多个指标上明显优于以前的技术。特别是，MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别显示了令人印象深刻的 +5.7 和 +5.0 mAP 增益，同时每秒处理 76 帧。此外，我们报告了公开验证集Refer-YouTube-VOS 的强大结果，这是一个更具挑战性的 RVOS 数据集，尚未受到研究人员的关注。
● 论文视频：https://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 论文链接：https://arxiv.org/abs/2111.14821
● 论文代码：https://github.com/mttr2021/MTTR
● 作者单位：以色列理工学院

15.【基于遗传医学影像的自我监督多模态对比学习】ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with Genetics
● 论文摘要：在将现代深度学习架构应用于临床相关的医疗用例时，高昂的标注成本是一个实质性的瓶颈，这证实了从未标注数据中学习新算法的需求。在这项工作中，我们提出了ContIG，一种自我监督的方法，可以从大量的未标记医学图像和遗传数据中学习。我们的方法校准图像和几个遗传模式在特征空间使用对比损失。我们设计了一种方法来整合同一模型中每个个体的多种模式，即使可用模式因个体而异。我们的程序在所有评估下游基准测试任务上优于最先进的自我监督方法。我们还适应了基于梯度的可解释算法，以更好地理解图像和遗传模式之间的交叉模态关联。最后，我们对我们的模型学习到的特征进行全基因组关联研究，揭示了图像和遗传数据之间有趣的关系。
● 论文链接：https://arxiv.org/abs/2111.13424
● 作者单位：波茨坦大学等

16.【深层生成网络流形的均匀采样，无需再训练】MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining
● 论文摘要：深度生成网络(DGNs)广泛应用于生成对抗网络(GANs)、变分自编码器(VAEs)及其变体中，以逼近数据流形和分布。然而，由于采集成本或采集方便，训练样本往往以非均匀的方式分布在流形上。例如，CelebA数据集包含很大一部分笑脸。当从训练好的DGN中采样时，这些不一致性将会重现，这并不总是首选的，例如，为了公平或数据扩充。作为回应，我们开发了MaGNET，这是一种新颖的、理论驱动的潜在空间采样器，适用于任何预先训练的DGN，它产生的样本均匀分布在学习的流形上。我们在不同的数据集和dgn上进行了一系列的实验，例如，对于在FFHQ数据集上训练的最先进的StyleGAN2，通过MaGNET进行均匀抽样，在不需要标签或重新训练的情况下，分布精度和召回率提高了4.1%和3.0%，性别偏差降低了41.2% %。由于均匀分布并不意味着均匀语义分布，我们还分别探讨了MaGNET抽样下生成的样本的语义属性如何变化。
● 论文链接：https://arxiv.org/abs/2110.08009
● 论文代码：https://github.com/AhmedImtiazPrio/MaGNET
● 数据集：ImageNet，MNIST
● 作者单位：莱斯大学

17.【StyleGAN反演与超网络的真实图像编辑】HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
● 论文摘要：将真实图像反演到StyleGAN的潜空间是一个研究得很深入的问题。然而，由于重建和可编辑性之间的内在平衡，将现有方法应用于真实场景仍然是一个开放的挑战:可以准确表示真实图像的潜在空间区域通常受到降级的语义控制。最近的工作建议通过微调生成器，将目标图像添加到行为良好的、可编辑的潜在空间区域，从而减轻这种权衡。虽然很有希望，但这种微调方案并不适合广泛使用，因为它需要对每一张新图像进行长时间的训练。在这项工作中，我们将这种方法引入到基于编码器的反演领域。我们提出了HyperStyle，一个学习调整StyleGAN的权值来忠实地表达潜在空间的可编辑区域的给定图像的超网络。单纯的调制方法需要训练一个具有超过30亿个参数的超网络。通过仔细的网络设计，我们减少了这与现有的编码器一致。HyperStyle生成的重构可与优化技术相比，具有编码器的近实时推理能力。最后，我们展示了HyperStyle在几种应用程序上的有效性，包括编辑训练中从未见过的域外图像。
● 论文主页：https://yuval-alaluf.github.io/hyperstyle/
● 论文链接：https://arxiv.org/abs/2111.15666
● 论文代码：https://github.com/yuval-alaluf/hyperstyle
● 数据集：FFHQ，CelebA-HQ
● 作者单位：以色列特拉维夫大学

18.【噪声标签的邻域一致性学习】Learning with Neighbor Consistency for Noisy Labels
● 论文摘要：最近在深度学习方面的进展依赖于大型的标记数据集来训练高容量模型。然而，以时间和成本效益的方式收集大型数据集往往导致标签噪声。我们提出了一种从噪声标签学习的方法，该方法利用了特征空间中训练示例之间的相似性，鼓励每个示例的预测与最近的邻居相似。与使用多个模型或不同阶段的训练算法相比，我们的方法采用了一个简单的、额外的正则化术语的形式。它可以解释为经典的，转导标签传播算法的归纳版本。我们彻底评估了我们的方法在数据集上评估合成(CIFAR-10, CIFAR-100)和现实(mini-WebVision, Clothing1M, mini-ImageNet-Red)噪声，并在所有这些噪声中实现了具有竞争力的或最先进的精度。
● 论文链接：https://arxiv.org/abs/2202.02200
● 论文代码：https://github.com/yuval-alaluf/hyperstyle
● 数据集：CIFAR-10，CIFAR-100
● 作者单位：google、阿德莱德大学

19.【Transformer的表结构】TableFormer: Table Structure Understanding with Transformers
● 论文摘要：表以简洁紧凑的表示方式组织有价值的内容。这些内容对于搜索引擎、知识图谱等系统非常有价值，因为它们增强了它们的预测能力。不幸的是，桌子有各种各样的形状和大小。此外，它们可以有复杂的列/行头配置、多行、不同种类的分隔行、缺少条目等。因此，从图像中正确识别表结构是一项艰巨的任务。本文提出了一种新的表结构识别模型。后者在两个重要方面改进了最新的端到端深度学习模型(即PubTabNet的encoder-dual-decoder)。首先，我们介绍了一种新的表单元格对象检测解码器。通过这种方式，我们可以直接从PDF源代码中获得可编程PDF的表格单元格的内容，从而避免了自定义OCR解码器的训练。这种架构上的变化导致了更精确的表内容提取，并允许我们处理非英语表。其次，我们将LSTM解码器替换为基于转换器的解码器。这一升级显著提高了以前最先进的树编辑距离分数(TEDS)，在简单表上从91%提高到98.5%，在复杂表上从88.7%提高到95%。
● 论文链接：https://arxiv.org/abs/2203.01017
● 作者单位：IBM

20.【基于Tracklet查询和建议的高效视频实例分割】Efficient Video Instance Segmentation via Tracklet Query and Proposal
● 论文摘要：视频实例分割(Video Instance Segmentation, VIS)旨在同时对视频中的多个对象实例进行分类、分割和跟踪。本文提出了一个具有高效训练和推理的全端到端框架EfficientVIS。其核心是tracklet查询和tracklet提议，通过迭代的查询-视频交互将感兴趣区域跨时空关联和分割。我们进一步提出了一种函授学习方法，使片段之间的轨迹链接端到端可学习。与VisTR相比，EfficientVIS在YouTubeVIS基准上实现最先进的精度时，需要更少的15倍的训练时间。同时，我们的方法使整个视频实例分割在一个端到端传递，而不需要任何数据关联。
● 论文主页：https://jialianwu.com/projects/EfficientVIS.html
● 论文视频：https://youtu.be/sSPMzgtMKCE
● 作者单位：纽约州立大学布法罗分校、Amazon

21.【利用超网络改进StyleGAN反演】HyperInverter: Improving StyleGAN Inversion via Hypernetwork
● 论文摘要：由于对GAN潜在空间的探索和利用，近年来真实世界的图像处理取得了惊人的进展。GAN反演是该流程的第一步，目的是将真实图像忠实地映射到潜码。不幸的是，现有的GAN反演方法不能满足以下三个要求中的至少一个:高重构质量、可编辑性和快速推理。在本研究中，我们提出了一种新颖的两阶段策略，可以同时满足所有的要求。在第一阶段，我们训练一个编码器将输入图像映射到StyleGAN2 W-space，它被证明具有很好的可编辑性，但重构质量较低。在第二阶段，我们利用一系列的超网络来补充初始阶段的重建能力，以恢复反演过程中缺失的信息。这两个步骤相辅相成，由于超网络分支和优异的可编辑性，由于在w空间进行反演，产生了高重构质量。我们的方法是完全基于编码器的，从而产生非常快的推理。在两个具有挑战性的数据集上的大量实验证明了该方法的优越性。
● 论文主页：https://di-mi-ta.github.io/HyperInverter/ ● 论文链接：https://arxiv.org/abs/2112.00719
● 论文视频：https://youtu.be/sSPMzgtMKCE ● 作者单位：VinAI Research, Vietnam

22.【用于密集预测的多路径视觉Transformer】MPViT: Multi-Path Vision Transformer for Dense Prediction
● 论文摘要：密集的计算机视觉任务，如目标检测和分割，需要有效的多尺度特征表示来检测或分类不同大小的目标或区域。虽然卷积神经网络(cnn)一直是此类任务的主导架构，但最近推出的Vision transformer (vit)旨在取代卷积神经网络成为主干。与cnn类似，vit为具有单尺度patch的多尺度表示构建了一个简单的多阶段结构(即细到粗)。在本研究中，我们以不同于现有Transformer的视角，探索多尺度的贴片嵌入和多路径结构，构建了多路径视觉转换器(MPViT)。MPViT嵌入相同大小~的特征。利用重叠卷积patch嵌入方法，同时获取不同尺度的patch。然后，通过多个路径将不同规模的令牌独立地输入到Transformer编码器中，并聚合得到的特性，从而在相同的特性级别上实现细特性表示和粗特性表示。由于具有不同的、多尺度的特征表示，我们的MPViTs从微小~(5M)到基~(73M)的缩放，在ImageNet分类、对象检测、实例分割和语义分割方面，始终能够实现比最先进的Vision transformer更好的性能。这些广泛的结果表明，MPViT可以作为一个通用的骨干网用于各种视觉任务。
● 论文链接：https://arxiv.org/abs/2112.11010
● 论文代码：https://github.com/youngwanLEE/MPViT
● 作者单位：韩国电子与电信研究所(ETRI)、韩国高等科学技术学院(KAIST)、AITRICS

23.【直接可微摄像机姿态估计】DiffPoseNet: Direct Differentiable Camera Pose Estimation
● 论文摘要：目前用于相机姿态估计的深度神经网络方法依赖于场景结构进行三维运动估计，但这降低了鲁棒性，使得跨数据集泛化困难。相比之下，传统的从运动估计结构的方法，利用光流估计三维运动，然后计算深度。然而，它们的准确性在很大程度上取决于光流的质量。为了避免这一问题，人们提出了直接的方法，将三维运动与深度估计分离开来，但只使用正常流形式的图像梯度来计算三维运动。在本文中，我们介绍了一个网络NFlowNet，用于正常的流量估计，用于增强鲁棒和直接的约束。特别地，法向流用于基于手性(深度正性)约束估计相对相机位姿。我们通过将优化问题表述为一个可微分的手性层来实现这一点，它允许端到端学习相机的姿态。我们对提出的DiffPoseNet对噪声的敏感性及其跨数据集的泛化进行了广泛的定性和定量评估。我们将我们的方法与现有的最先进的方法进行了比较，在KITTI、TartanAir和tumrgbd数据集上显示了高达3.4倍的改进。
● 论文链接：https://prg.cs.umd.edu/research/DiffPoseNet_files/DiffPoseNet.pdf
● 作者单位：美国马里兰大学

24.【基于语言的视频编辑多模式多级Transformer】Language-based Video Editing via Multi-Modal Multi-Level Transformer
● 论文摘要：视频编辑工具在数字化设计中得到了广泛的应用。尽管对这些工具的需求很高，但对这些工具的先验知识要求使得新手很难上手。能够遵循自然语言指令执行自动编辑的系统将显著提高可访问性。本文介绍了基于语言的视频编辑(LBVE)任务，该任务允许模型在文本指导下将源视频编辑成目标视频。LBVE具有两个特点:1)保留了源视频的场景，而不是生成一个完全不同的视频;2)语义在目标视频中呈现不同，所有的变化都由给定的指令控制。我们提出一种多模态多级变压器(M3L-Transformer)来实现LBVE。M3L-Transformer动态学习不同层次的视频感知和语言语义之间的对应关系，有利于视频理解和视频帧合成。我们构建了三个新的评估数据集，包括两个诊断数据集和一个来自带有人类标记文本的自然视频。大量的实验结果表明，M3L-Transformer是一种有效的视频编辑方法，LBVE可以为视觉和语言的研究开辟一个新的领域。
● 论文链接：https://arxiv.org/abs/2104.01122
● 作者单位：UC Santa Barbara、UC Santa Cruz

25.【可控三维人工合成的表面定向神经辐射场】Surface-Aligned Neural Radiance Fields for Controllable 3D Human Synthesis
● 论文摘要：提出了一种基于稀疏多视角RGB视频重构可控隐式三维人体模型的新方法。我们的方法定义了网格表面点上的神经场景表示，并从人体网格表面签名的距离。我们确定了一个不可区分的问题，当3D空间中的一个点被映射到一个网格上最近的表面点，以学习表面对齐的神经场景表示。为了解决这个问题，我们提出用修正顶点法线的重心插值将一个点投影到网格表面上。在ZJU-MoCap和Human3.6M数据集上进行的实验表明，与现有方法相比，我们的方法在新视角和新姿态的合成中获得了更高的质量。我们也证明了我们的方法很容易支持对体型和衣服的控制。
● 论文链接：https://arxiv.org/abs/2201.01683
● 作者单位：东京大学

26.【基于完全经验重放的贝叶斯稀疏网络学习持续学习】Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning
● 论文摘要：持续学习(CL)方法旨在使机器学习模型在学习新任务时不会灾难性地忘记之前已经掌握的内容。现有的CL方法通常会对之前看到的样本进行缓冲，进行知识蒸馏，或者使用正则化技术来实现这一目标。尽管他们表现出色，但他们仍然会受到任务间干扰的影响，从而导致灾难性的遗忘。为了改善这一问题，我们提出在任何阶段只激活和选择稀疏的神经元来学习当前和过去的任务。这样就可以为未来的任务保留更多的参数空间和模型容量。这将使不同任务的参数之间的干扰最小化。为此，我们提出了一种用于持续学习的稀疏神经网络(SNCL)，该网络利用变分贝叶斯稀疏先验对各层神经元的激活情况进行处理。全体验重放(Full Experience Replay, FER)为学习不同层次神经元的稀疏激活提供了有效的监督。提出了一种丢失感知的储层采样策略来维护内存缓冲区。该方法对于网络结构和任务边界是不可知的。在不同数据集上的实验表明，我们的方法在减轻遗忘方面达到了最先进的性能。
● 论文链接：https://arxiv.org/abs/2202.10203
● 作者单位：新南威尔士大学、阿德莱德大学

27.【单目3D语义场景完成】MonoScene: Monocular 3D Semantic Scene Completion
● 论文摘要：提出了一个三维语义场景完成(SSC)框架，其中场景的密集几何和语义是由单目RGB图像推断出来的。与SSC文献不同，我们依靠2.5或3D输入，解决了2D到3D场景重建的复杂问题，同时联合推断其语义。我们的框架依赖于连续的2D和3D UNets，它由一种新颖的2D-3D特征投影连接起来，这种投影来源于光学，并在执行空间语义一致性之前引入了3D上下文关系。在建筑贡献的同时，我们介绍了新颖的全球场景和当地的圆锥台的损失。实验表明，我们在所有指标和数据集上的表现都优于文献，即使在相机视野之外，我们也能幻想出似是而非的风景。
● 论文主页：https://cv-rits.github.io/MonoScene/
● 论文链接：https://arxiv.org/abs/2112.00726
● 论文代码：https://github.com/cv-rits/MonoScene
● 作者单位：法国国家信息与自动化研究所（INRIA）

28.【基于实体提示的视频和语言预训练】Align and Prompt: Video-and-Language Pre-training with Entity Prompts
● 论文摘要：视频和语言的前训练在各种下游任务上显示出了有希望的改进。以前的大多数方法使用基于变压器的多模态编码器捕获交叉模态交互，没有完全解决单模态视频和文本特征之间的不对齐问题。此外，学习细粒度的视觉语言对齐通常需要现成的对象检测器来提供对象信息，这受到检测器词汇量有限和昂贵的计算成本的限制。我们提出对齐和提示:一个高效和有效的视频和语言前训练框架，具有更好的跨模式对齐。首先，我们引入了一种视频文本对比(VTC)损失来对齐实例级的单模态视频文本特征，这简化了交叉模态交互的建模。然后，我们提出了一种新的基于视觉的预训练任务，即实体建模(PEM)，旨在学习细粒度的区域-实体对齐。为了实现这一点，我们首先引入了一个实体提示模块，VTC对它进行训练，以产生视频裁剪和文本提示之间的相似性，实例化的实体名称。然后PEM任务要求模型预测随机选择的视频作物的实体伪标签(即~归一化相似度分数)。得到的预训练模型在文本-视频检索和视频质量保证(videoQA)方面都达到了最先进的性能，大大超过了之前的工作。
● 论文链接：https://arxiv.org/abs/2112.09583
● 论文代码：https://github.com/salesforce/alpro
● 作者单位：Salesforce Research、澳大利亚国立大学

29.【基于梯度核的持续学习重放缓冲区选择】GCR: Gradient Coreset Based Replay Buffer Selection For Continual Learning
● 论文摘要：持续学习(CL)的目标是开发一种技术，通过这种技术，单个模型可以适应顺序遇到的越来越多的任务，从而以一种资源高效的方式潜在地利用跨任务的学习。CL系统的一个主要挑战是灾难性遗忘，即在学习新任务时忘记早期的任务。为了解决这个问题，基于重放的CL方法在一个小的缓冲区上对所遇到的任务中选择的数据进行维护和反复的再训练。我们提出了梯度核心重放(GCR)，这是一种利用精心设计的优化准则进行重放缓冲区选择和更新的新策略。具体来说，我们选择并保持一个“核心”，该核心接近于迄今为止所看到的所有数据的梯度，与当前的模型参数，并讨论其在持续学习设置中有效应用所需的关键策略。在经过充分研究的离线持续学习环境中，我们显示出了显著的进步(绝对2%-4%)。我们的研究结果也有效地应用到在线/流CL设置中，显示比现有方法提高了5%。最后，我们证明了监督对比损失对于持续学习的价值，当与我们的子集选择策略相结合时，它可以产生高达5%的累积增益。
● 论文链接：https://arxiv.org/abs/2111.11210
● 作者单位：印度理工学院(ISM)、德州大学达拉斯分校、Google

30.【多模态视频字幕的端到端生成预训练】End-to-end Generative Pretraining for Multimodal Video Captioning
● 论文摘要：最近的视频和语言前训练框架缺乏生成句子的能力。我们提出了多模态视频生成预训练(MV-GPT)，这是一个新的用于从无标签视频学习的预训练框架，它可以有效地用于生成任务，如多模态视频字幕。与最近的视频语言预训练框架不同，我们的框架同时训练多模态视频编码器和句子解码器。为了克服无标签视频中字幕的缺乏，我们利用未来话语作为一个额外的文本源，并提出一个双向生成目标——我们在当前多模态语境下生成未来话语，在未来观察下也生成当前话语。基于此目标，我们训练一个端到端的编码器-解码器模型来直接从原始像素和转录语音生成标题。我们的模型在四个标准基准上的多模态视频字幕以及其他视频理解任务(如VideoQA、视频检索和动作分类)上都达到了最先进的性能。
● 论文链接：https://arxiv.org/abs/2201.08264
● 作者单位：Google Research

31.【一个完全无监督的框架，用于学习从噪声和部分测量图像】Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements
● 论文摘要：深度网络在从医学成像到计算摄影的多重成像逆问题中提供了最先进的性能。然而，大多数现有的网络都是用干净的信号训练的，这通常很难或不可能获得。等变成像(EI)是一种最新的自我监督学习框架，它利用信号分布中的群体不变性，仅从部分测量数据学习重构函数。虽然EI的结果令人印象深刻，但它的性能随着噪声的增加而下降。在本文中，我们提出了一个鲁棒等变成像(REI)框架，它可以学习图像从噪声部分测量单独。该方法使用Stein’s Unbiased Risk Estimator (SURE)来获得对噪声具有鲁棒性的完全无监督训练损失。我们表明，REI在线性和非线性逆问题上带来了可观的性能增益，从而为深度网络的鲁棒无监督成像铺平了道路。
● 论文链接：https://arxiv.org/abs/2111.12855
● 论文代码：https://github.com/edongdongchen/rei
● 作者单位：爱丁堡大学

32.【通过随机收缩加速逆问题的条件扩散模型】Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models for Inverse Problems through Stochastic Contraction
● 论文摘要：由于其作为生成模型的强大性能，扩散模型最近在社区中引起了极大的兴趣。此外，它在逆问题中的应用已经证明了最先进的性能。不幸的是，扩散模型有一个严重的缺点——它们本质上采样速度很慢，需要几千步迭代才能从纯高斯噪声生成图像。在这项工作中，我们表明从高斯噪声开始是不必要的。相反，从具有更好初始化的单个正向扩散开始显着减少了反向条件扩散中的采样步骤数。这种现象由随机差分方程的收缩理论正式解释，例如我们的条件扩散策略 - 反向扩散的交替应用，然后是非扩展数据一致性步骤。新的采样策略，称为 Come-Closer-Diffuse-Faster (CCDF)，还揭示了如何将现有的用于逆问题的前馈神经网络方法与扩散模型协同结合的新见解。超分辨率、图像修复和压缩感知 MRI 的实验结果表明，我们的方法可以在显着减少采样步骤的情况下实现最先进的重建性能。
● 论文链接：https://arxiv.org/abs/2112.05146
● 作者单位：韩国科学技术院(KAIST)

33.【单幅图像向神经辐射场平移的无监督条件π-GAN】Pix2NeRF: Unsupervised Conditional π-GAN for Single Image to Neural Radiance Fields Translation
● 论文摘要：我们提出了一种管道来生成对象或特定类别的场景的神经辐射场~（NeRF），以单个输入图像为条件。这是一项具有挑战性的任务，因为训练 NeRF 需要同一场景的多个视图，以及难以获得的相应姿势。我们的方法基于 π-GAN，这是一种用于无条件 3D 感知图像合成的生成模型，它将随机潜在代码映射到一类对象的辐射场。我们联合优化 (1) π-GAN 目标以利用其高保真 3D 感知生成和 (2) 精心设计的重建目标。后者包括一个与 π-GAN 生成器耦合的编码器，以形成一个自动编码器。与之前的小样本 NeRF 方法不同，我们的管道是无监督的，能够在没有 3D、多视图或姿势监督的情况下使用独立图像进行训练。我们管道的应用包括 3d 头像生成、以对象为中心的具有单个输入图像的新颖视图合成以及 3d 感知超分辨率等。
● 论文链接：https://arxiv.org/abs/2202.13162
● 论文代码：https://github.com/HexagonPrime/Pix2NeRF
● 作者单位：苏黎世联邦理工学院

34.【基于单车载摄像机图像的保持拓扑的局部路网估计】Topology Preserving Local Road Network Estimation from Single Onboard Camera Image Translation
● 论文摘要：道路网络拓扑的知识对于自主规划和导航至关重要。然而，仅部分探索了从单个图像中恢复这种拓扑结构。此外，它还需要参考地平面，也就是在该地平面上执行驱动操作。本文旨在直接在鸟瞰图 (BEV) 中提取本地道路网络拓扑结构，所有这些都位于复杂的城市环境中。唯一的输入包括单个板载前视摄像头图像。我们使用一组有向车道曲线及其交互来表示道路拓扑，这些交互是使用它们的交叉点捕获的。为了更好地捕捉拓扑，我们引入了\emph{最小循环}的概念及其覆盖。最小循环是由有向曲线段（两个交点之间）形成的最小循环。封面是一组曲线，其分段参与形成最小循环。我们首先表明覆盖足以唯一地表示道路拓扑。然后使用覆盖物来监督深度神经网络，以及车道曲线监督。这些学习从单个输入图像预测道路拓扑。 NuScenes 和 Argoverse 基准测试的结果明显优于使用基线获得的结果。我们的源代码将公开。
● 论文链接：https://arxiv.org/abs/2112.10155
● 作者单位：苏黎世联邦理工学院、荷语天主教鲁汶大学

35.【混合扩散:自然图像的文本驱动编辑】Blended Diffusion: Text-driven Editing of Natural Images
● 论文摘要：自然语言为图像编辑提供了一个高度直观的界面。在本文中，我们介绍了第一个基于自然语言描述和 ROI 掩码在通用自然图像中执行局部（基于区域）编辑的解决方案。我们通过利用和组合预训练的语言图像模型 (CLIP) 来实现我们的目标，将编辑转向用户提供的文本提示，并使用去噪扩散概率模型 (DDPM) 来生成看起来自然的结果。为了将编辑区域与图像的未更改部分无缝融合，我们在空间上混合了输入图像的噪声版本与局部文本引导的扩散潜伏在噪声水平的进展中。此外，我们表明在扩散过程中添加增强可以减轻对抗性结果。我们在定性和定量方面与几个基线和相关方法进行了比较，并表明我们的方法在整体真实感、保留背景和匹配文本的能力方面优于这些解决方案。最后，我们展示了几个文本驱动的编辑应用程序，包括向图像添加新对象、删除/替换/更改现有对象、背景替换和图像外推。
● 论文主页：https://omriavrahami.com/blended-diffusion-page/
● 论文链接：https://arxiv.org/abs/2111.14818
● 论文代码：https://github.com/omriav/blended-diffusion
● 作者单位：耶路撒冷希伯来大学、赫兹利亚跨学科研究中心

36.【多摄像头多人跟踪的提升多剪辑优化】LMGP: Lifted Multicut Optimization for Multi-Camera Multi-People Tracking
● 论文摘要：多相机多目标跟踪目前在计算机视觉领域引起了人们的关注，因为它在现实世界的应用中具有卓越的性能，例如在拥挤场景或广阔空间中的视频监控。在这项工作中，我们提出了一种基于时空提升多切割公式的数学上优雅的多相机多目标跟踪方法。我们的模型利用单相机跟踪器产生的最先进的轨迹作为提议。由于这些 tracklet 可能包含 ID-Switch 错误，我们通过从 3D 几何投影中获得的新颖的预聚类来改进它们。因此，我们得到了一个更好的跟踪图，没有 ID 切换和更精确的数据关联阶段的亲和成本。然后，通过求解全局提升多切割公式，将轨迹与多摄像机轨迹匹配，该公式结合了位于同一摄像机和摄像机间轨迹上的短程和长程时间交互。 WildTrack 数据集的实验结果产生了近乎完美的结果，优于 Campus 中最先进的跟踪器，同时与 PETS-09 数据集相当。我们将在接受论文后提供我们的实现。
● 论文链接：https://arxiv.org/abs/2111.11892
● 作者单位：马克斯·普朗克信息学研究所、汉诺威莱布尼兹大学、奥尔登堡大学、德国人工智能研究中心

37.【使用门控最优传输的分层形状匹配】Bending Graphs: Hierarchical Shape Matching using Gated Optimal Transport
● 论文摘要：形状匹配一直是计算机图形和视觉社区长期研究的问题。目标是预测具有一定变形程度的网格之间的密集对应关系。现有方法要么考虑采样点的局部描述，要么根据全局形状信息发现对应关系。在这项工作中，我们研究了一种分层学习设计，我们将局部补丁级信息和全局形状级结构结合到其中。这种灵活的表示可以实现对应预测，并为匹配阶段提供丰富的特征。最后，我们通过反复更新非置信节点上的特征来学习形状之间的全局一致对应关系，提出了一种新的最优传输求解器。我们在公开数据集上的结果表明，在存在严重变形的情况下具有强大的性能，无需进行广泛的训练或改进。
● 论文链接：https://arxiv.org/abs/2202.01537
● 作者单位：慕尼黑工业大学、威尼斯大学、瑞士意大利语区大学、Google

38.【用于6DoF物体姿态估计的粗到细表面编码】ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose Estimation
● 作者：Yongzhi Su, Mahdi Saleh, Torben Fetzer, Jason Rambach, Benjamin Busam, Nassir Navab, Didier Stricker, Federico Tombari
● 作者单位：慕尼黑工业大学等

39.【一种多阶段单镜头目标姿态估计框架】OSOP: A Multi-Stage One Shot Object Pose Estimation Framework
● 作者：Ivan Shugurov, Fu Li, Benjamin Busam, Slobodan Ilic
● 作者单位：慕尼黑工业大学等

40.【单目深度估计的跨模态学习】CroMo: Cross-Modal Learning for Monocular Depth Estimation
● 作者：Yannick Verdie, Jifei Song, Barnabé Mas, Benjamin Busam, Ales Leonardis, Steven McDonagh
● 作者单位：慕尼黑工业大学等

41.【一个多模态数据集用于具有光度挑战性的类别级目标姿态估计】PhoCaL: A Multi-Modal Dataset for Category-Level Object Pose Estimation with Photometrically Challenging Objects
● 作者：Pengyuan Wang, HyunJun Jung, Yitong Li, Siyuan Shen, Rahul Parthasarathy Srikanth, Lorenzo Garattoni, Sven Meier, Nassir Navab, Benjamin Busam
● 作者单位：慕尼黑工业大学等

42.【学习对抗性变形点云以进行稳健的 3D 对象检测】3D-VField: Learning to Adversarially Deform Point Clouds for Robust 3D Object Detection
● 作者：Alexander Lehner, Stefano Gasperini, Alvaro Marcos-Ramiro, Mohammad-Ali Nikouei Mahani, Michael Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari
● 作者单位：慕尼黑工业大学等

43.【学习局部位移点云补全】 Learning Local Displacements for Point Cloud Completion
● 作者：Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari
● 作者单位：慕尼黑工业大学等

44.【基于几何导向点式投票的类别级对象姿态估计】GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise Voting
● 作者：Yan Di, Ruida Zhang, Zhiqiang Lou, Fabian Manhardt, Xiangyang Ji, Nassir Navab, Federico Tombari
● 作者单位：慕尼黑工业大学等

45.【医学图像配准中相似度学习的变分贝叶斯方法】 A variational Bayesian method for similarity learning in medical image registration
● 作者：Daniel Grzech, Mohammad Farid Azampour, Ben Glocker, Julia Schnabel, Nassir Navab, Bernhard Kainz, Loic le Folgoc
● 作者单位：慕尼黑工业大学等

46.【学会在野外协调有序的行动】 Learning to Align Sequential Actions in the Wild
● 作者：Weizhe Liu, Bugra Tekin, Huseyin Coskun, Vibhav Vineet, Pascal Fua, Marc Pollefeys
● 作者单位：慕尼黑工业大学等

47.【用于快速鲁棒点云配准的几何Transformer】Geometric Transformer for Fast and Robust Point Cloud Registration
● 作者：Zheng Qin, Hao Yu, Changjian Wang, Yulan Guo, Yuxing Peng, Kai Xu
● 作者单位：慕尼黑工业大学等

48.【一种用于连续多任务领域适应的合成驱动数据集】SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation
● 作者：T Sun, M Segù, J Postels, Y Wang, L Van Gool, B Schiele, F Tombari, F Yu
● 作者单位：慕尼黑工业大学等

49.Do Explanations Explain? Model Knows Best
● 作者：Ashkan Khakzar, Pedram Khorsandi, Rozhin Nobahari, Nassir Navab
● 作者单位：慕尼黑工业大学等

50.【基于大规模密集、精确和多样化数据集的单幅图像头部三维对准】DAD-3D HEADS: Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image
● 论文摘要：DAD-3DHeads包含超过3.5K地标的注释，与地面真实扫描相比，准确地代表了3D头部形状。数据驱动模型DAD-3DNet在我们的数据集上进行训练，学习形状、表情和姿态参数，并使用网格进行3D头部重建。该模型还引入了一个里程碑预测分支，以充分利用多个相关任务的丰富监督和协同训练。
● 论文主页：https://dad3dheads.netlify.app/
● 作者单位：乌克兰利沃夫大学、帝国理工学院等

51.【基于大规模密集、精确和多样化数据集的单幅图像头部三维对准】DAD-3D HEADS: Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image
● 论文摘要：DAD-3DHeads包含超过3.5K地标的注释，与地面真实扫描相比，准确地代表了3D头部形状。数据驱动模型DAD-3DNet在我们的数据集上进行训练，学习形状、表情和姿态参数，并使用网格进行3D头部重建。该模型还引入了一个里程碑预测分支，以充分利用多个相关任务的丰富监督和协同训练。
● 论文主页：https://dad3dheads.netlify.app/
● 作者单位：乌克兰利沃夫大学、帝国理工学院等

52.【光流网络的对抗鲁棒性研究】Towards Understanding Adversarial Robustness of Optical Flow Networks Alignment from a Single Image
● 论文摘要：最近的工作表明，光流网络对基于补丁的物理对抗攻击缺乏鲁棒性。对汽车系统的基本组件进行物理攻击的可能性是引起严重关注的一个原因。在本文中，我们分析了问题的原因并表明缺乏鲁棒性的根源在于光流估计的经典孔径问题以及网络架构细节的错误选择。我们展示了如何纠正这些错误，以使光流网络对基于补丁的物理攻击具有鲁棒性。此外，我们还研究了光流范围内的全局白盒攻击。我们发现可以精心设计有针对性的白盒攻击，以使流量估计模型偏向任何所需的输出，但这需要访问输入图像和模型权重。我们的结果表明，光流网络对普遍攻击具有鲁棒性。
● 论文链接：https://arxiv.org/abs/2103.16255
● 作者单位：弗赖堡大学

53.【混合搜索策略】Which Model to Transfer? Finding the Needle in the Growing Haystack
● 论文摘要：迁移学习最近被普及为从头开始训练模型的数据高效替代方案，特别是在视觉和 NLP 中，它提供了非常可靠的基线。丰富的模型存储库（例如 TensorFlow Hub）的出现使从业者和研究人员能够在广泛的下游任务中释放这些模型的潜力。随着这些存储库呈指数级增长，有效地为手头的任务选择一个好的模型变得至关重要。我们通过熟悉的遗憾概念对这个问题进行了形式化，并介绍了主要策略，即与任务无关（例如选择得分最高的 ImageNet 模型）和任务感知搜索策略（例如线性或 kNN 评估）。我们进行了一项大规模的实证研究，并表明任务不可知和任务感知方法都会产生很高的遗憾。然后，我们提出了一种简单且计算效率高的混合搜索策略，该策略优于现有方法。我们强调了所提出的解决方案在一组 19 种不同的视觉任务上的实际好处。
● 论文链接：https://arxiv.org/abs/2010.06402
● 作者单位：苏黎世联邦理工学院、Google Research

54.【基于归一化的动态无监督域适应】The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization
● 论文摘要：域适应对于使学习模型适应新场景（例如域转移或不断变化的数据分布）至关重要。当前的方法通常需要来自移位域的大量标记或未标记数据。这在需要持续动态适应或遭受数据稀缺的领域中可能是一个障碍，例如。在具有挑战性的天气条件下自动驾驶。为了解决持续适应分布变化的问题，我们提出了动态无监督适应（DUA）。我们通过不断调整批量归一化层的统计数据来修改模型的特征表示。我们表明，通过仅访问来自移位域的一小部分未标记数据并按顺序进行调整，可以获得强大的性能提升。由于来自目标域的未标记数据甚至不到 1%，DUA 已经在强大的基线上取得了具有竞争力的结果。此外，与以前的方法相比，计算开销最小。我们的方法简单但有效，可以应用于任何使用批量标准化作为其组件之一的架构。我们通过在各种领域适应数据集和任务（包括对象识别、数字识别和对象检测）上评估 DUA 来展示 DUA 的实用性。
● 论文链接：https://arxiv.org/abs/2112.00463
● 作者单位：格拉茨工业大学等

55.【GPU的快速离散优化】FastDOG: Fast Discrete Optimization on GPU
● 论文摘要：我们提出了一种大规模并行拉格朗日分解方法，用于求解结构化预测中出现的 0-1 整数线性程序。我们提出了一种新的迭代更新方案来解决拉格朗日对偶和用于解码原始解决方案的扰动技术。为了表示子问题，我们遵循 Lange 等人。（2021）并使用二元决策图（BDD）。我们的原始算法和对偶算法几乎不需要子问题之间的同步，并且对 BDD 的优化只需要基本操作而无需复杂的控制流。这使我们能够利用 GPU 为我们方法的所有组件提供的并行性。我们展示了来自马尔可夫随机场的 MAP 推理、发育生物学的二次分配和细胞跟踪的组合问题的实验结果。我们的高度并行 GPU 实现改进了 Lange 等人的算法的运行时间。（2021）高达一个数量级。特别是，我们接近或优于一些最先进的专业启发式算法，同时与问题无关。
● 论文链接：https://arxiv.org/abs/2111.10270
● 作者单位：马克斯·普朗克信息学研究所

56.【一种GPU快速多切算法】RAMA: A Rapid Multicut Algorithm on GPU
● 论文摘要：我们为多割（又名相关聚类）问题提出了一种高度并行的原始对偶算法，这是一种广泛用于机器学习和计算机视觉的经典图聚类问题。我们的算法包括三个递归执行的步骤：（1）找到与底层多割松弛的违反不等式相对应的冲突循环，（2）在边缘和循环之间执行消息传递以优化来自发现的违反循环的拉格朗日松弛，从而产生减少成本和（3）通过矩阵-矩阵乘法以降低成本的方式收缩边缘。我们的算法产生原始解决方案和估计最佳距离的双重下界。我们在 GPU 上实现了我们的算法，与在 CPU 上运行的传统串行算法相比，在不牺牲解决方案质量的情况下，执行速度提高了一到两个数量级。我们可以在几秒钟内以小的原始对偶间隙解决具有多达 O(10^8) 个变量的非常大规模的基准测试问题。
● 论文链接：https://arxiv.org/abs/2109.01838 ● 论文代码：https://github.com/pawelswoboda/rama
● 作者单位：马克斯·普朗克信息学研究所

57.【没有注释的情况下分割对象学习】FreeSOLO: Learning to Segment Objects without Annotations
● 论文摘要：实例分割是一项基本的视觉任务，旨在识别和分割图像中的每个对象。但是，它需要昂贵的注释，例如边界框和分割掩码来进行学习。在这项工作中，我们提出了一种完全无监督的学习方法，可以在没有任何注释的情况下学习与类无关的实例分割。我们提出了 FreeSOLO，这是一个建立在简单实例分割方法 SOLO 之上的自我监督实例分割框架。我们的方法还提出了一种新颖的定位感知预训练框架，其中可以以无监督的方式从复杂场景中发现对象。 FreeSOLO 在具有挑战性的 COCO 数据集上实现了 9.8% 的 AP_{50}，甚至优于几种使用手动注释的分割提议方法。我们第一次成功地展示了无监督的与类无关的实例分割。 FreeSOLO 的框定位显着优于最先进的无监督对象检测/发现方法，COCO AP 的相对改进约为 100%。 FreeSOLO 进一步证明了作为一种强大的预训练方法的优越性，在仅使用 5% 的 COCO 掩码对实例分割进行微调时，其性能优于最先进的自监督预训练方法 + 9.8% AP。
● 论文链接：https://arxiv.org/abs/2202.12181
● 作者单位：阿德莱德大学、NVIDIA、加州理工学院、浙江大学

58.【通过插值对齐的特征来改进表示】AlignMixup: Improving representations by interpolating aligned features
● 论文摘要：Mixup 是一种强大的数据增强方法，它在输入或特征空间中的两个或多个示例之间以及相应的目标标签之间进行插值。许多最近的混合方法侧重于将两个或多个对象剪切和粘贴到一个图像中，这更多是关于有效处理而不是插值。然而，如何最好地插入图像并没有很好的定义。从这个意义上说，mixup 已与自动编码器相关联，因为自动编码器通常会“很好地进行插值”，例如生成一张不断变形为另一张的图像。在这项工作中，我们从插值的角度重新审视 mixup 并引入 AlignMix，我们在几何上对齐特征空间中的两个图像。对应关系允许我们在两组特征之间进行插值，同时保持一组特征的位置。有趣的是，这会导致 mixup 主要保留一张图像的几何形状或姿势以及另一张图像的纹理，将其与风格转移联系起来。不仅如此，我们还展示了自动编码器仍然可以改进混合下的表示学习，而分类器永远不会看到解码的图像。 AlignMix 在五个不同的基准测试中优于最先进的混合方法。
● 论文链接：https://arxiv.org/abs/2103.15375
● 作者单位：Inria, Univ Rennes, CNRS, IRISA

59.【跨模态检索的协同双流视觉-语言前训练模型】COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
● 论文摘要：大规模的单塔预训练模型，在跨模态检索中取得惊人的检索效果。遗憾的是，由于它们大多采用耗时的实参跨模态交互方式，检索效率非常低。最近，像CLIP和ALIGN这样具有高推理效率的双塔模型也表现出了良好的效果，然而，它们只考虑了模态之间的实例级对齐（因此仍有改进的余地）。为了克服这些限制，我们提出了一个新颖的协同式双塔视觉语言预训练模型，简称为COTS。总的来说，我们提出的COTS是通过加强模态间的交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之外，我们还提出了两种额外的跨模态交互。(1)Token级的交互—在不使用实参交互模型的情况下，我们设计了一个遮蔽视觉语言建模（MVLM）的学习目标，其中变分自编码器用于视觉编码，可为每个图像生成视觉token级别的标记。(2)任务级的交互—在文本到图像和图像到文本的检索任务之间设计了一个KL-对齐学习目标，其中每个任务的概率分布是用动量对比学习中的负样本队列计算的。在公平比较下，我们提出的COTS在所有双塔方法中取得了最好的结果，与最新的单塔方法相比，COTS表现出相当的能力（但推理速度快10,800倍）。同时，我们提出的COTS也适用于从文本到视频的检索，在广泛使用的MSR-VTT数据集上取得了目前最好的结果。
● 作者：卢浩宇，费楠益，霍宇琦，高一钊，卢志武，文继荣
● 作者单位：中国人民大学高瓴人工智能学院

60.【跨模态检索的协同双流视觉-语言前训练模型】Balanced Audio-visual Learning via On-the-fly Gradient Modulation
● 论文摘要：视听学习通过整合不同的感官，有助于全面了解世界。因此，多输入模态有望提高模型性能，但我们实际上发现即使多模态模型优于其单模态模型，它们也没有得到充分利用。具体来说，在本文中，我们指出现有的视听判别模型（其中为所有模态设计了统一的目标）可能仍然存在欠优化的单模态表示，这是由某些场景中的另一种主导模态引起的。为了缓解这种优化不平衡，我们提出了动态梯度调制，通过监控它们对学习目标的贡献的差异来自适应地控制每种模态的优化。此外，引入了动态变化的额外高斯噪声，以避免梯度调制引起的泛化下降。因此，我们在不同的视听任务上实现了对普通融合方法的相当大的改进，这种简单的策略也可以提升现有的多模态方法，这说明了它的有效性和多功能性。
● 作者：彭小康*，卫雅珂*，邓安东，王栋，胡迪
● 作者单位：中国人民大学高瓴人工智能学院

61.【学习在动态视听情境中回答问题】Learning to Answer Questions in Dynamic Audio-Visual Scenarios
● 论文摘要：我们在本文中聚焦于视听问答(AVQA)任务，该任务旨在回答视频中不同视觉对象、声音及其关联的问题。其中问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究，我们创建了一个大规模的AVQA数据集，其中包含超过45K个问答对，并涵盖了不同模态下的9类问题类型以及33个不同的问题模板。为了探究AVQA任务，我们提出了一些基线方法，并引入了一个时空视听网络。实验结果表明多模态感知可以有益于AVQA任务，并且所提出的模型优于最近的A-、V-和AVQA方法。我们相信构建的数据集能够作为测试平台，用于评估和促进视听场景理解和时空推理的研究。此外，引入了动态变化的额外高斯噪声，以避免梯度调制引起的泛化下降。因此，我们在不同的视听任务上实现了对普通融合方法的相当大的改进，这种简单的策略也可以提升现有的多模态方法，这说明了它的有效性和多功能性。
● 作者：李光耀*，卫雅珂*，田亚鹏，胡迪，徐成良，文继荣
● 作者单位：中国人民大学高瓴人工智能学院

62.【深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险】Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase
● 论文摘要：多视图聚类通过挖掘多个视图的互补信息来提高聚类性能。然而，我们观察到视图数量的增加并不总能确保提高模型的聚类效果。为此，我们提出了一个基于深度学习的通用框架以降低视图增加带来的聚类性能下降的风险。具体地，该模型需要通过自动选择来自不同视图的特征来同时挖掘互补信息和去除无意义的噪声。这两个学习过程通过提出的双层优化目标被集成到统一的框架。在理论上，该框架的经验聚类风险不高于在视图增加前的数据和新增加的单视图数据上的经验聚类风险。同时，在基于散度的聚类损失下，该框架的期望聚类风险以高概率不高于在视图增加前的数据和新增加的单视图数据上的期望聚类风险。在基准多视图数据集上的综合实验证明了该框架在实现安全多视图聚类上的有效性和优越性。
● 作者：唐华镱，刘勇
● 作者单位：中国人民大学高瓴人工智能学院

63.【利用大规模视频转录推进高分辨率视频语言表示】Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions
● 论文摘要：我们研究了视频和语言（VL）的联合预训练，以实现跨模态学习并使大量的下游VL任务受益。现有的研究要么是提取低质量的视频特征，要么是学习有限的文本嵌入，而忽略了高分辨率的视频和多样化的语义可以显著增强跨模态学习。在本文中，我们提出了一个新颖的高分辨率和多样化的视频-文本预训练模型（HD-VILA），用于许多视觉任务。我们收集了一个具有两个特性的大型数据集：(1)高分辨率，包括371.5K小时的720p视频。(2)多样化，涵盖15个流行的YouTube类别。为了实现VL预训练，我们通过一个混合Transformer和一个多模态Transformer来共同优化HD-VILA模型，前者学习丰富的时空特征，后者进行视频特征与多样化文本的交互。我们的预训练模型在10个VL理解任务和2个文本到视觉的生成任务中取得了最先进的结果。例如，我们在zero-shot MSR-VTT文本到视频检索任务中超越了SOTA模型，相对增加了38.5％R@'1，在高分辨率数据集LSMDC中增加了53.6％。学习到的VL嵌入在文本到视觉编辑和超分辨率任务中也能有效地产生视觉效果好、语义上的相关结果。
● 作者：薛宏伟*，杭天恺*，曾艳红*，孙宇冲*，刘蓓，杨欢，傅建龙，郭百宁
● 作者单位：中国人民大学高瓴人工智能学院

64.【目标检测的定位蒸馏】Localization Distillation for Dense Object Detection Translation
● 论文摘要：知识蒸馏(Knowledge精馏，KD)在学习紧凑模型的目标检测中具有强大的能力。由于KD方法在提取定位信息方面效率较低，以往的目标检测方法主要是在模拟区域内模拟深度特征，而不是模拟分类logit。本文通过对定位知识精馏过程的重构，提出了一种新的定位精馏方法，该方法能有效地将定位知识从教师传递给学生。此外，我们还启发式地引入了有价值定位区域的概念，有助于有选择地提取特定区域的语义和定位知识。结合这两种新组件，我们首次证明logit模仿比特征模仿更有效，并且定位知识蒸馏比语义知识蒸馏更重要和有效。该蒸馏方案简单有效，可方便地应用于不同密度的物体探测器。实验表明，LD能够在不牺牲推理速度的情况下，将单尺度1×训练计划下的GFocal-ResNet-50在COCO基准上的AP得分从40.1提高到42.1。
● 论文链接：https://arxiv.org/abs/2102.12252
● 论文代码：https://github.com/HikariTJU/LD
● 作者单位：南开大学、天津大学、哈尔滨工业大学

65.【弱监督目标定位建模为领域适应】Weakly Supervised Object Localization as Domain Adaption
● 论文摘要：弱监督目标定位(WSOL)只关注在图像级分类掩码的监督下进行对象定位。以前的大多数WSOL方法都遵循分类激活映射(classification activation map, CAM)，它使用多实例学习(MIL)机制基于分类结构对目标进行本地化。然而，MIL机制使得CAM只能激活识别目标的部分而不能激活整个目标，削弱了其本地化目标的性能。**为了避免这一问题，本文提出了一种新的视角，将WSOL建模为域适应(DA)任务，即在源/图像域上训练的分数估计器在目标/像素域上进行测试以定位目标。**在此视角下，DA-WSOL流程设计可以更好地将DA方法引入到WSOL中，以提高本地化性能。利用所提出的目标采样策略来选择不同类型的目标样本。基于这些类型的目标样本，对域自适应定位(DAL)损耗进行了阐述。该方法通过DA对两个域之间的特征分布进行对齐，并通过Universum正则化使估计器感知目标域线索。实验表明，该方法在多基准测试上的性能优于SOTA方法。
● 论文链接：https://arxiv.org/pdf/2203.01714.pdf
● 论文代码：https://github.com/zh460045050/DA-WSOL_CVPR2022
● 作者单位：北京大学、字节跳动等

66.【适应全景语义分割的失真感知Transformers】Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Semantic Segmentation
● 论文摘要：全景图像具有360度的方向性，包含了周围空间的详尽信息，为场景理解提供了丰富的基础。为了以健壮的全景分割模型的形式展现这种潜力，大量昂贵的像素级注释是成功的关键。这样的注释是可用的，但主要用于窄角度、针孔相机的图像，这些图像是现成的，对训练全景模型来说不是最理想的资源。360度全景图像的扭曲和明显的图像特征分布阻碍了从具有丰富注释的针孔域的转移，因此对性能造成了很大的影响。为了克服这一领域的差异，并将针孔和360度环绕视觉的语义注释结合在一起，我们提出在可变形贴片嵌入(DPE)和可变形MLP (DMLP)组件中学习物体变形和全景图像变形，这些组件混合到我们的全景语义分割(Trans4PASS)模型Transformer中。最后，我们通过生成多尺度的原型特征，将共享语义结合在针孔和全景特征嵌入中，并将它们对齐到我们的相互原型适配(MPA)中进行无监督领域适配。在斯坦福2d3d室内数据集上，我们的Trans4PASS与MPA保持了与完全监督状态下的性能相当的性能，减少了1400多个标签全景图的需求。在DensePASS的户外数据集上，我们将最先进的技术提高了14.39% mIoU，并将新标准设置为56.38%。
● 论文链接：https://arxiv.org/abs/2203.01452
● 论文代码：https://github.com/jamycheung/trans4pass
● 作者单位：卡尔斯鲁厄理工学院、字节跳动、蔡司公司

67.【使自我训练更好地用于半监督语义分割】ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation
● 论文摘要：通过伪标签进行自我训练是一种传统的、简单的、流行的利用未标签数据的途径。本研究首先通过在无标签图像上注入强数据增强(strong data augmentation, SDA)来缓解噪声标签的过拟合，并解耦教师和学生之间的相似预测，构建半监督语义分割的强自训练基线(ST)。有了这个简单的机制，我们的ST优于所有现有的方法，没有任何花哨的东西，例如迭代再训练。受到这些令人印象深刻的结果的启发，我们对SDA进行了深入的研究，并提供了一些实证分析。然而，不正确的伪标签仍然容易累积并降低性能。为此，我们进一步提出了一种先进的自训练框架(即ST++)，该框架基于整体预测水平的稳定性，对可靠的未标记图像进行优先排序，进行选择性的再训练。具体来说，在第一阶段的监督训练中保存了几个模型检查点，它们对未标记图像的预测差异作为可靠性的度量。我们的图像级选择为学习提供了整体的上下文信息。我们证明了它比一般的像素选择更适合分割。因此，ST++进一步提高了我们的ST。
● 论文链接：https://arxiv.org/abs/2106.05095
● 论文代码：https://github.com/LiheYoung/ST-PlusPlus
● 作者单位：南京大学、腾讯、东南大学

68.【弱监督语义分词的类再激活映射】Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation
● 论文摘要：提取类激活映射(CAM)可以说是为弱监督语义分割(WSSS)生成伪掩码的最标准步骤。然而，我们发现伪掩模不理想的症结在于CAM中广泛使用的二元交叉熵损失(binary cross entropy loss, BCE)。具体来说，由于BCE的类求和池特性，CAM中的每个像素都可能对同一接收域中同时出现的多个类做出响应。因此，给定一个类，它的热CAM像素可能错误地侵入了属于其他类的区域，或者非热CAM像素实际上可能是类的一部分。为此，我们引入了一种令人尴尬的简单但令人惊讶的有效方法:通过使用softmax交叉熵损失(SCE)，命名为\textbf{ReCAM}，用BCE重新激活融合CAM。给定一幅图像，我们使用CAM提取每个单独类的特征像素，并将它们与类标签一起使用SCE学习另一个全连接层(在主干之后)。一旦收敛，我们就可以像在CAM中一样提取ReCAM。由于SCE的对比性质，像素响应被解纠缠到不同的类，因此较少的掩模模糊是预期的。对PASCAL VOC和MS~COCO的评估表明，ReCAM不仅生成高质量的遮罩，而且还支持任何CAM变体的即插即用，开销很小。
● 论文链接：https://arxiv.org/pdf/2203.00962.pdf
● 论文代码：https://github.com/zhaozhengChen/ReCAM
● 作者单位：新加坡管理大学、南洋理工大学、阿里巴巴达摩学院

69.【用于点云上的 3D 实例分割】SoftGroup for 3D Instance Segmentation on Point Clouds
● 论文摘要：现有的三维实例分割方法都是先进行语义分割，然后再进行分组。当执行语义分割时，很难做出预测，这样每个点都与单个类相关联。然而，困难决策所产生的错误传播到分组中，导致(1)预测实例与基本事实之间的低重叠(2)大量的误报。针对上述问题，本文提出了一种三维实例分割方法，称为SoftGroup，采用自底向上软分组，自顶向下细化的方法。SoftGroup允许每个点与多个类相关联，以减轻语义预测错误所带来的问题，并通过学习将它们分类为背景来抑制假阳性实例。在不同数据集和多种评价指标上的实验结果证明了SoftGroup的有效性。在AP_50方面，它的性能比最强的先验方法在ScanNet v2隐藏测试集上高出6.2%，在S3DIS Area 5上高出6.8%。SoftGroup的速度也很快，在ScanNet v2数据集上使用单个Titan X每次扫描的速度为345ms。
● 论文链接：https://arxiv.org/abs/2203.01509
● 论文代码：https://github.com/thangvubk/SoftGroup.git
● 作者单位：韩国科学技术高级研究院

70.【学习用于多人姿势估计的局部-全局上下文适应】 Learning Local-Global Contextual Adaptation for Multi-Person Pose Estimation
● 论文摘要：本文采用自底向上的方法研究多人位姿估计问题。我们发现，在理想情况下，在局部窗口搜索方案中，中心偏移公式的定位问题可以得到解决，因此我们提出了一种多人姿态估计方法，称为LOGO-CAP，通过学习人体姿态的局部-全局上下文适应。具体来说，该方法首先从局部小窗口的局部关键点扩展图中学习关键点吸引图(KAMs)，然后将这些关键点扩展图作为基于关键点的全局热图的动态卷积核进行上下文适应，实现精确的多人姿态估计。我们的方法是端到端可训练的，在一个单一的前向传递中具有近实时推理速度，在自底向上的人体姿态估计的COCO关键点基准上获得了最先进的性能。利用COCO训练的模型，我们的方法在具有挑战性的ochman数据集上也大大优于现有技术。
● 论文链接：https://arxiv.org/pdf/2109.03622.pdf
● 作者单位：武汉大学、北卡罗来那州立大学

71.【用于视频中三维人体姿态估计的Seq2seq混合时空编码器】MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video
● 论文摘要：近年来，基于transformer的方法从二维关键点序列估计三维人体姿态，全局考虑所有帧之间的身体关节，学习时空相关性。我们观察到不同关节的运动有明显的差异。然而，以往的方法不能有效地建模每个关节的立体帧间对应关系，导致对时空相关性的学习不足。本文提出了MixSTE (Mixed Spatio-Temporal Encoder)算法，该算法采用时域变换块对每个关节的时域运动进行建模，采用空间transformer对关节间的空间相关性进行学习。将这两个块交替利用，得到更好的时空特征编码。此外，将网络输出从中心帧扩展到整个输入视频帧，从而提高了输入和输出序列之间的一致性。在Human3.6M、MPI-INF-3DHP和HumanEva三个基准上进行了大量的实验来评估所提出的方法。结果表明，在Human3.6M数据集上，我们的模型比最先进的方法性能好10.9% P-MPJPE和7.6% MPJPE。
● 论文链接：https://arxiv.org/pdf/2203.00859.pdf
● 作者单位：武汉大学、苏州大学、慕尼黑工业大学、纽约州立大学布法罗分校

72.【光场深度估计的遮挡感知成本构造函数】Occlusion-Aware Cost Constructor for Light Field Depth Estimation
● 论文摘要：匹配成本构建是光场深度估计的关键步骤，但在深度学习时代却鲜有研究。近年来，基于深度学习的低频深度估计方法通过对每个子孔径图像进行序列偏移来构造匹配代价，这种方法复杂且耗时。在本文中，我们提出了一个简单而快速的代价构造函数来构造低频深度估计的匹配代价。我们的成本构造函数由一系列具有特定设计的膨胀率的卷积组成。将我们的代价构造函数应用到SAI数组中，可以在不使用任何移位操作的情况下，对预定义差异下的像素进行积分并构造匹配代价。更重要的是，提出的代价构造函数是遮挡感知的，可以通过动态调制不同视图的像素来处理遮挡。在此基础上，我们开发了一个用于低频深度估计的深度网络。我们的网络在常用的4D LF基准中均方误差(MSE)排名第一，并且比其他最先进的方法实现了更快的运行时间。
● 论文链接：https://arxiv.org/pdf/2203.01576.pdf
● 论文代码：https://github.com/yingqianwang/oacc-net
● 作者单位：国防科学技术大学

73.【用于单目深度估计的神经窗口全连接 CRF】NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
● 论文摘要：从单个图像估计准确的深度是一个挑战，因为它固有的模糊性和不适定。而近年来的作品设计了越来越复杂和强大的网络，直接回归深度图，我们走的是CRFs优化的道路。由于计算量大，crf通常在邻域之间执行，而不是在整个图中执行。为了充分利用全连接crf的潜力，我们将输入分割为多个窗口，并在每个窗口内进行fc - crf优化，降低了计算复杂度，使fc - crf可行。为了更好地捕捉图中节点之间的关系，我们利用多头注意机制来计算多头势函数，并将其反馈给网络以输出优化的深度图。然后我们构建了一个自底向上自顶向下的结构，其中这个神经窗口FC-CRFs模块作为解码器，视觉转换器作为编码器。实验表明，与之前的方法相比，我们的方法在KITTI和NYUv2数据集上的所有指标上都显著提高了性能。此外，该方法可以直接应用于全景图像，并且在MatterPort3D数据集上优于之前所有的全景图像方法。我们的方法的源代码将被公开。
● 论文链接：https://arxiv.org/abs/2203.01502
● 作者单位：阿里巴巴集团、西蒙弗雷泽大学

74.【通过几何感知融合进行 360 度单目深度估计】OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
● 论文摘要：从单个图像估计准确的深度是一个挑战，因为它固有的模糊性和不适定。而近年来的作品设计了越来越复杂和强大的网络，直接回归深度图，我们走的是CRFs优化的道路。由于计算量大，crf通常在邻域之间执行，而不是在整个图中执行。为了充分利用全连接crf的潜力，我们将输入分割为多个窗口，并在每个窗口内进行fc - crf优化，降低了计算复杂度，使fc - crf可行。为了更好地捕捉图中节点之间的关系，我们利用多头注意机制来计算多头势函数，并将其反馈给网络以输出优化的深度图。然后我们构建了一个自底向上自顶向下的结构，其中这个神经窗口FC-CRFs模块作为解码器，视觉转换器作为编码器。实验表明，与之前的方法相比，我们的方法在KITTI和NYUv2数据集上的所有指标上都显著提高了性能。此外，该方法可以直接应用于全景图像，并且在MatterPort3D数据集上优于之前所有的全景图像方法。我们的方法的源代码将被公开。
● 论文链接：https://arxiv.org/abs/2203.00838
● 作者单位：密苏里大学、博世研究院

75.【通过文本和参考图像设计你的头发】HairCLIP: Design Your Hair by Text and Reference Image
● 论文摘要：头发编辑是计算机视觉和图形学中一个有趣而富有挑战性的问题。许多现有的方法需要绘制良好的草图或蒙版作为编辑的条件输入，然而这些交互既不直接也不高效。为了将用户从繁琐的交互过程中解放出来，本文提出了一种新的头发编辑交互模式，可以根据用户提供的文本或参考图像单独或联合操作头发属性。为此，我们在共享的嵌入空间中对图像和文本条件进行编码，并利用对比语言-图像预训练(CLIP)模型强大的图像文本表示功能，提出了一个统一的头发编辑框架。通过精心设计的网络结构和丢失功能，我们的框架可以以解纠缠的方式进行高质量的头发编辑。大量的实验证明了我们的方法在操作精度、编辑结果的视觉真实性和无关属性保存方面的优越性。
● 论文链接：https://arxiv.org/abs/2112.05142
● 论文代码：https://github.com/wty-ustc/hairclip
● 作者单位：中国科学技术大学、微软、香港城市大学

76.【增量Transformer结构增强图像掩蔽位置编码】Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding
● 论文摘要：近年来，图像补绘取得了显著的进展。然而，如何恢复纹理逼真、结构合理的图像仍然是一个难题。由于卷积神经网络的接收域有限，一些特定的方法只处理规则纹理，而失去了整体结构。另一方面，基于注意力的模型可以更好地学习结构恢复的长程依赖性，但在图像尺寸较大的情况下，由于计算量大而受到限制。为了解决这些问题，我们建议利用一个额外的结构恢复器，以促进图像内画增量。该模型利用一个强大的基于注意的Transformer模型，在一个固定的低分辨率草图空间中恢复整体图像结构。这样的灰度空间很容易上采样到更大的尺度，以传递正确的结构信息。通过零初始化残差加法，我们的结构恢复器可以与其他预训练的绘制模型有效地集成在一起。此外，利用掩蔽位置编码策略提高了大型不规则掩模的性能。在各种数据集上的大量实验验证了我们的模型与其他竞争对手的有效性。
● 论文链接：https://arxiv.org/abs/2203.00867
● 论文代码：https://github.com/dqiaole/zits_inpainting
● 作者单位：复旦大学

77.【图像-图像翻译任务中对比学习的Patch-wise语义关系研究】Exploring Patch-wise Semantic Relation for Contrastive Learning in Image-to-Image Translation Tasks
● 论文摘要：近年来，人们提出了基于对比学习的图像平移方法，通过对比不同的空间位置来增强图像的空间对应性。然而，这些方法往往忽略了图像内部不同的语义关系。为了解决这一问题，本文提出了一种新的语义关系一致性(SRC)正则化方法和解耦对比学习方法，该方法通过关注单个图像中图像块之间的异构语义，利用不同的语义。为了进一步提高挖掘性能，我们利用语义关系提出了一种硬负挖掘方法。我们验证了我们的方法在三个任务:单模态和多模态的图像翻译，和GAN压缩任务的图像翻译。实验结果证实了该方法在三个任务中的性能。
● 论文链接：https://arxiv.org/abs/2203.01532
● 作者单位：韩国KAIST

78.【一种大规模人脸识别的有效训练方法】An Efficient Training Approach for Very Large Scale Face Recognition Translation Tasks
● 论文摘要：人脸识别在深度学习时代已经取得了显著的进步，这得益于超大规模和良好标记的数据集。然而，对超大数据集的训练是耗时的，并且占用了大量的硬件资源。因此，设计一种有效的培训方法是必不可少的。全连接(FC)层的百万级维数是计算和内存消耗的主要原因。为此，我们提出了一种新的训练方法，称为快速人脸分类(F2C)，以在不牺牲性能的情况下减少时间和成本。该方法采用动态类池(DCP)动态存储和更新身份特征，可作为FC层的替代。DCP由于其体积较小且独立于整个人脸身份的集合，具有高效节省时间和成本的优点。我们在多个人脸基准和私有数据集上进一步验证了所提出的F2C方法，并显示了可比较的结果，同时，在识别精度和硬件成本方面，该方法的速度比最先进的基于fc的方法更快。此外，我们的方法进一步改进了设计良好的双数据加载器，包括基于身份和基于实例的加载器，使其更有效地更新DCP参数。
● 论文链接：https://arxiv.org/abs/2105.10375
● 论文代码：https://github.com/tiandunx/FFC
● 作者单位：新加坡国立大学、阿里巴巴、清华大学、中国科学院自动化研究所、深圳科技大学

79.【从稀疏到密集的动态3D面部表情生成】Sparse to Dense Dynamic 3D Facial Expression Generation
● 论文摘要：在本文中，我们提出了一种从中性三维人脸和表情标签生成动态三维面部表情的解决方案。这涉及到两个子问题:(i)建模表达式的时间动力学，(ii)变形中性网格以获得表达对等物。我们使用稀疏的3D标志集的运动来表示表达式的时间演化，我们通过训练流形值GAN (Motion3DGAN)来学习生成这些标志集。为了更好地对表达式引起的变形进行编码，并将其从身份信息中分离出来，生成的运动被表示为来自中性配置的每帧位移。为了生成具有表现力的网格，我们训练了Sparse2Dense网格解码器(S2D-Dec)，它将地标位移映射为密集的逐顶点位移。这使我们能够了解稀疏地标集的运动如何影响整个表面的变形，独立于身份。对彗差和D3DFACS数据集的实验结果表明，我们的解决方案在动态表达式生成和网格重构方面都比之前的解决方案有了显著的改进，同时对不可见数据保持了良好的泛化。
● 论文链接：https://arxiv.org/abs/2105.07463
● 作者单位：里尔大学、法国国家研究中心、意大利帕尔马大学、意大利佛罗伦萨大学

80.【用身份一致性Transformer保护名人】Protecting Celebrities with Identity Consistency Transformer
● 论文摘要：在本工作中，我们提出了身份一致性Transformer，一种新的人脸伪造检测方法，该方法侧重于高级语义，特别是身份信息，并通过发现内部和外部人脸区域的身份不一致来检测嫌疑人的脸。身份一致性转换器包含了身份一致性判定的一致性损失。我们表明，身份一致性Transformer不仅在不同的数据集上，而且在包括深度伪造视频在内的真实世界应用中发现的各种类型的图像退化形式上，都表现出了优越的泛化能力。当这些信息可用时，身份一致性Transformer可以很容易地使用额外的身份信息进行增强，因此，它特别适合于检测涉及名人的脸部伪造。
● 论文链接：https://arxiv.org/abs/2203.01318
● 作者单位：中国科学技术大学、微软

81.【空中跟踪的时间上下文】TCTrack: Temporal Contexts for Aerial Tracking
● 论文摘要：在现有的视觉跟踪器中，连续帧之间的时间上下文还远远没有得到充分利用。在这项工作中，我们提出了TCTrack，一个全面的框架来充分利用时间上下文进行空中跟踪。时间上下文合并在\textbf{两个层次}:\textbf{特征}的提取和\textbf{相似图}的细化。具体来说，在特征提取方面，我们提出了一种基于时间信息的在线时间自适应卷积，通过根据前一帧动态标定卷积权值来增强空间特征。对于相似图的细化，我们提出了一种自适应时间转换器，该转换器首先以高效记忆的方式对时间知识进行有效编码，然后对时间知识进行解码，从而对相似图进行精确调整。TCTrack是有效和高效的:评估四个航迹基准显示其令人印象深刻的性能;真实世界的无人机测试显示其在NVIDIA Jetson AGX Xavier上超过27 FPS的高速。
● 论文链接：https://arxiv.org/abs/2203.01885
● 论文代码：https://github.com/vision4robotics/tctrack
● 作者单位：同济大学、新加坡国立大学、南洋理工大学、阿里巴巴达摩院

82.【超越 3D 连体跟踪：点云中 3D 单对象跟踪的以运动为中心的范式】Beyond 3D Siamese Tracking: A Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds
● 论文摘要：激光雷达点云中的三维单目标跟踪(3D SOT)是自动驾驶的关键技术。目前的方法都遵循基于外观匹配的暹罗模式。然而，激光雷达点云通常没有纹理和不完整，这阻碍了有效的外观匹配。此外，以往的方法严重忽视了目标之间的关键运动线索。在这项工作中，除了3D Siamese跟踪，我们引入了一个以运动为中心的范式，从一个新的角度来处理3D SOT。在此基础上，我们提出了一种无匹配的两级跟踪器M^2-Track。在第1^st阶段，M^2-Track通过运动变换在连续帧内对目标进行定位。然后通过2^nd阶段的运动辅助形状补全对目标盒进行细化。大量的实验证实，M^2-Track在KITTI、NuScenes和Waymo Open Dataset上分别以57FPS(~8%、~17%和~22%)的精度提高，在三个大规模数据集上显著超过了之前的先进水平。进一步的分析验证了每个组件的有效性，并显示了以运动为中心的范式与外观匹配相结合的前景。
● 论文链接：https://arxiv.org/abs/2203.01730
● 论文代码：https://github.com/Ghostish/Open3DSOT
● 作者单位：香港中文大学(深圳)、未来网络情报研究所、深圳市大数据研究院、Xiaobing.AI、西湖大学

83.【相关感知深度跟踪】Correlation-Aware Deep Tracking
● 论文摘要：鲁棒性和识别能力是视觉目标跟踪的两个基本要求。在大多数跟踪范式中，我们发现流行的类暹罗网络提取的特征不能完全区别地对被跟踪目标和干扰对象建模，阻碍了它们同时满足这两个要求。当大多数方法都专注于设计鲁棒相关操作时，我们提出了一种新的目标依赖特征网络，其灵感来自于自/交叉注意方案。与类暹罗特征提取相比，我们的网络将跨图像特征相关性深入嵌入到特征网络的多层结构中。通过对两幅图像的特征进行多层次的广泛匹配，可以抑制非目标特征，从而提取出随实例变化的特征。搜索图像的输出特征可以直接用于预测目标位置，无需额外的相关步骤。此外，我们的模型可以在大量的未配对图像上进行灵活的预训练，从而显著加快了收敛速度。大量的实验表明，我们的方法可以在实时运行的情况下达到最先进的结果。我们的特征网络也可以无缝地应用于现有的跟踪管道，以提高跟踪性。
● 论文链接：https://arxiv.org/abs/2203.01666
● 作者单位：东南大学、微软亚洲研究院

84.【视频Transformer的 BERT 预训练】BEVT: BERT Pretraining of Video Transformers
● 论文摘要：研究了视频Transformer的BERT预训练方法。这是一个简单但值得研究的扩展，因为最近成功的BERT图像变形前训练。引入BEVT，将视频表示学习分解为空间表示学习和时间动态学习。其中，BEVT首先对图像数据进行掩蔽图像建模，然后再对视频数据进行掩蔽图像建模和掩蔽视频建模。这个设计的动机是两个观察:1)在图像数据集上学习的Transformer提供了相当好的空间先验，可以简化视频Transformer的学习，如果从头开始训练，视频Transformer通常需要数倍的计算量;2)不同的视频需要的判别线索，即空间和时间信息，由于类内和类间的差异较大，因此在不同的视频中，需要做出正确的预测。我们在三个具有挑战性的视频基准上进行了广泛的实验，BEVT取得了非常有希望的结果。在Kinetics 400上，识别主要依赖于有区别的空间表示，BEVT可以获得与强监督基线相当的结果。在Something-Something-V2和Diving 48中，它包含了依赖于时间动态的视频，BEVT的表现明显优于所有可选基线，并分别以71.4%和87.2% Top-1的精度实现了最先进的性能。
● 论文链接：https://arxiv.org/abs/2112.01529
● 论文代码：https://github.com/xyzforever/BEVT
● 作者单位：复旦大学、Microsoft Cloud + AI

85.【通过咨询示例进行有效且高效的在线动作检测】Colar: Effective and Efficient Online Action Detection by Consulting Exemplars
● 论文摘要：近年来，在线动作检测引起了越来越多的研究兴趣。目前的工作是模拟历史依赖关系，并预测未来，以感知视频片段中的动作演化，提高检测精度。然而，现有的范式忽略了类别级建模，对效率重视不够。就一个类别而言，其代表框架表现出不同的特征。因此，类别级建模可以为时态依赖关系建模提供补充指导。本文提出了一种有效的范例咨询机制，该机制首先衡量范例框架与范例框架之间的相似度，然后基于相似度权重对范例特征进行聚合。这也是一种有效的机制，因为相似性度量和特征聚合都需要有限的计算量。基于范例-咨询机制，可以将历史框架作为范例来捕获长期依赖关系，将类别的代表性框架作为范例来实现类别级建模。由于类别级建模的互补性，我们的方法采用了轻量级架构，但在三个基准上实现了新的高性能。此外，利用时空网络处理视频帧，我们的方法处理一分钟视频耗时9.8秒，并取得了相当的性能。
● 论文链接：https://arxiv.org/pdf/2203.01057.pdf
● 作者单位：西北工业大学

86.【使用 Transformer 进行 3D 密集字幕的跨模式知识迁移】X -Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning
● 论文摘要：3D密集字幕的目的是在3D场景中通过自然语言描述单个物体，而3D场景通常以RGB-D扫描或点云的形式表示。然而，以往的方法仅利用单一的模态信息，如点云，无法产生真实的描述。尽管将2D特征聚合到点云中可能是有益的，但它引入了额外的计算负担，特别是在推理阶段。在本研究中，我们使用Transformer for 3D密集字幕，X-Trans2Cap研究交叉模态知识转移，以通过师生框架的知识蒸馏有效提升单模态3D字幕的性能。在实践中，在训练阶段，教师网络利用辅助的二维模态，通过特征一致性约束引导只以点云作为输入的学生网络。由于设计良好的跨模态特征融合模块和训练阶段的特征对齐，X-Trans2Cap可以轻松获取丰富的嵌入到二维图像中的外观信息。因此，在推理过程中，只能使用点云生成更忠实的标题。定性和定量结果证实，X-Trans2Cap的表现远远超过了以前的最先进水平，即在ScanRefer和Nr3D数据集上，分别为+21和+16的绝对CIDEr评分。
● 论文链接：https://arxiv.org/pdf/2203.00843.pdf
● 作者单位：香港中文大学(深圳)、上海交通大学、中山大学

87.【通过边界排斥的仅标签模型反转攻击】Label-Only Model Inversion Attacks via Boundary Repulsion
● 论文摘要：最近的研究表明，最先进的深度神经网络很容易受到模型反演攻击，这种攻击会滥用对模型的访问来重建任何给定目标类的私有训练数据。现有的攻击依赖于能够访问完整的目标模型(白盒)或模型的软标签(黑盒)。然而，在更困难但更实际的场景中，攻击者只能够访问模型的预测标签，而没有置信度度量。在本文中，我们引入了一种算法，边界排斥模型反演(BREP-MI)，仅使用目标模型的预测标签来反演私有训练数据。我们的算法的关键思想是评估模型在一个球体上的预测标签，然后估计到达目标类质心的方向。以人脸识别为例，我们证明了BREP-MI重建的图像成功地再现了各种数据集和目标模型体系结构的私有训练数据的语义。我们将BREP-MI与最先进的白盒和黑盒模型反演攻击进行了比较，结果表明，尽管假设对目标模型的了解较少，但BREP-MI优于黑盒攻击，取得了与白盒攻击相当的结果。
● 论文链接：https://arxiv.org/pdf/2203.01925.pdf
● 作者单位：弗吉尼亚理工学院

88.【一种基于统一查询的点云理解范式】A Unified Query-based Paradigm for Point Cloud Understanding
● 论文摘要：最近的研究表明，最先进的深度神经网络很容易受到模型反演攻击，这种攻击会滥用对模型的访问来重建任何给定目标类的私有训练数据。现有的攻击依赖于能够访问完整的目标模型(白盒)或模型的软标签(黑盒)。然而，在更困难但更实际的场景中，攻击者只能够访问模型的预测标签，而没有置信度度量。在本文中，我们引入了一种算法，边界排斥模型反演(BREP-MI)，仅使用目标模型的预测标签来反演私有训练数据。我们的算法的关键思想是评估模型在一个球体上的预测标签，然后估计到达目标类质心的方向。以人脸识别为例，我们证明了BREP-MI重建的图像成功地再现了各种数据集和目标模型体系结构的私有训练数据的语义。我们将BREP-MI与最先进的白盒和黑盒模型反演攻击进行了比较，结果表明，尽管假设对目标模型的了解较少，但BREP-MI优于黑盒攻击，取得了与白盒攻击相当的结果。
● 论文链接：https://arxiv.org/abs/2203.01925
● 作者单位：香港中文大学、MPI Informatics、香港科技大学

89.【通过学习神经组合表示进行人体 4D 建模】H4D: Human 4D Modeling by Learning Neural Compositional Representation
● 论文摘要：尽管基于深度学习的3D重建已经取得了令人印象深刻的效果，但直接学习对4D人体捕捉的细节几何建模的技术研究较少。本工作提出了一种新的框架，利用人体先验知识，从广泛使用的SMPL参数化模型中有效地学习动态人体的紧凑组合表示。特别地，我们的表征，命名为H4D，代表了在一个时间跨度内的动态三维人体的潜在空间编码形状、初始姿态、运动和辅助信息。提出了一个简单而有效的线性运动模型，以提供一个粗略和正则化的运动估计，然后逐帧补偿的姿态和几何细节，残差编码在辅助码。在技术上，我们引入了新的基于gru的架构，以方便学习和提高表示能力。大量实验表明，该方法不仅能有效地恢复具有精确运动和详细几何形状的动态人体，而且能适应各种与4D人体相关的任务，包括运动重定向、运动完成和未来预测。
● 论文链接：https://arxiv.org/abs/2203.01247
● 作者单位：复旦大学、google

90.【文本和图像驱动的神经辐射场操作】CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields
● 论文摘要：我们提出了CLIP-NeRF，一种多模态三维对象操作方法的神经辐射场(NeRF)。通过利用最近的对比语言图像预训练(CLIP)模型的联合语言-图像嵌入空间，我们提出了一个统一的框架，该框架允许以用户友好的方式操作NeRF，可以使用简短的文本提示或范例图像。具体来说，为了结合NeRF的新视图合成能力和生成模型中潜在表示的可控操纵能力，我们引入了一个解纠缠条件NeRF体系结构，允许个体对形状和外观进行控制。这是通过将学习到的变形字段应用于位置编码并将颜色调节延迟到体绘制阶段来实现的。为了将这种解纠缠的潜在表示连接到CLIP嵌入，我们设计了两个代码映射器，它们以CLIP嵌入为输入，并更新潜在代码以反映目标编辑。使用基于clip的匹配损失训练映射器，以确保操作的准确性。此外，我们提出了一种反优化方法，将输入的图像精确地投影到潜在代码中进行操作，以实现对真实图像的编辑。我们通过对各种文本提示和范例图像的大量实验来评估我们的方法，并为交互式编辑提供了一个直观的界。
● 论文链接：https://arxiv.org/abs/2112.05139
● 论文代码：https://cassiepython.github.io/clipnerf/
● 作者单位：香港城市大学、Snap Inc.、南加州大学创新技术研究所、Microsoft Cloud AI

91.【学习探索样本关系以进行鲁棒表征学习】BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning
● 论文摘要：尽管深度神经网络取得了成功，但由于数据的稀缺性，如数据不平衡、不可见分布和域转移等问题，深度表示学习仍面临许多挑战。为了解决上述问题,设计了多种方法以香草的方式探索样本之间的关系(例如,从输入或损失函数),未能探索深层的内部结构神经网络的学习样本的关系。受此启发，我们建议使深度神经网络本身能够从每个小批量中学习样本关系。具体来说，我们引入了一个批处理变压器模块或BatchFormer，然后将其应用到每个小批处理的批处理维度中，以隐式地探索训练过程中的样本关系。通过这样做，该方法使得不同样本之间的协作成为可能，例如头类样本可以帮助学习尾类样本，从而实现长尾识别。此外，为了减小训练和测试之间的差距，我们在训练过程中使用BatchFormer或不使用BatchFormer共享分类器，因此可以在测试过程中删除该分类器。我们在十多个数据集上进行了大量的实验，该方法在不同的数据稀缺性应用上取得了显著的改进，包括长尾识别、合成零次学习、域泛化和对比学习。
● 论文链接：https://arxiv.org/abs/2203.01522
● 论文代码：https://github.com/zhihou7/BatchFormer
● 作者单位：悉尼大学、京东探索学院

92.【FAIR重新设计纯卷积新架构】A ConvNet for the 2020s
● 论文摘要：视觉识别的“咆哮的20年代”始于Vision transformer (ViTs)的引入，它很快取代了卷积神经网络(ConvNets)，成为最先进的图像分类模型。另一方面，普通的ViT在应用于一般的计算机视觉任务(如对象检测和语义分割)时面临困难。正是分层的transformer(例如Swin transformer)重新引入了几个ConvNet先验，使得transformer实际上可以作为通用的视觉主干，并在各种各样的视觉任务中表现出显著的性能。然而，这种混合方法的有效性在很大程度上仍然归功于《变形金刚》的内在优势，而不是卷积的固有归纳偏差。在这项工作中，我们重新审视了设计空间，并测试了纯粹的“卷积神经网络”所能达到的极限。我们逐渐将标准ResNet“现代化”，以实现Transformer的设计，并发现了几个关键的组件，这些组件有助于实现性能差异。这一探索的结果是一系列被称为ConvNeXt的纯ConvNet模型。完全由标准ConvNet模块构建，ConvNeXts在准确性和可扩展性方面优于transformer，实现了87.8%的ImageNet准确度，在COCO检测和ADE20K分割方面优于Swin transformer，同时保持了标准ConvNet的简单性和效率。
● 论文链接：https://arxiv.org/abs/2201.03545
● 论文代码：https://github.com/facebookresearch/ConvNeXt
● 作者单位：Facebook AI Research、UC Berkeley

93.【连接MobileNet和Transformer】Mobile-Former: Bridging MobileNet and Transformer
● 论文摘要：我们提出Mobile-Former，一个并行设计的MobileNet和变压器之间的双向桥。这种结构利用了MobileNet在本地处理和转换器在全局交互中的优势。该桥能够实现局部和全局特征的双向融合。与最近关于视觉转换器的工作不同，Mobile-Former中的转换器包含很少的token(例如6个或更少的token)，这些token被随机初始化以学习全局先验，因此计算成本很低。结合所提出的轻量化交叉注意对桥梁进行建模，Mobile-Former不仅计算效率高，而且具有更强的表示能力。它在ImageNet分类上从25M到500M FLOPs的低FLOPs状态下优于MobileNetV3。例如，Mobile-Former达到77.9% % top-1精度在294M FLOPs，获得1.3%超过MobileNetV3，但节省了17%的计算。当转移到对象检测时，Mobile-Former在retanet框架中比MobileNetV3的性能好8.6个AP。此外，我们用Mobile-Former代替DETR中的主干、编码器和解码器，构建了一个高效的端到端检测器，它的性能比DETR提高了1.1 AP，但节省了52%的计算成本和36%的参数。
● 论文链接：https://arxiv.org/abs/2108.05895
● 作者单位：微软、中国科学技术大学

94.【图像补丁是波浪：量子启发的视觉 MLP】An Image Patch is a Wave: Quantum Inspired Vision MLP
● 论文摘要：在计算机视觉领域，最近的工作表明，一个主要由全连接层堆叠的纯MLP架构可以实现与CNN和transformer竞争的性能。通常将视觉MLP的输入图像分割成多个标记(patches)，而现有的MLP模型直接将标记以固定的权重进行聚合，忽略了不同图像中标记的语义信息的变化。为了动态聚合令牌，我们建议将每个令牌表示为包含振幅和相位两部分的波函数。幅值是图像的原始特征，而相位项是一个根据输入图像的语义内容变化的复杂值。引入相位项可以动态调整MLP中令牌与固定权值之间的关系。基于类似wave的令牌表示，我们建立了一种新的用于视觉任务的Wave-MLP架构。大量的实验表明，提出的Wave-MLP在图像分类、目标检测和语义分割等各种视觉任务上优于目前最先进的MLP架构。
● 论文链接：https://arxiv.org/abs/2111.12294
● 论文代码：https://github.com/huawei-noah/CV-backbones，https://github.com/ggjy/Hire-Wave-MLP.pytorch
● 作者单位：北京大学、华为方舟实验室、悉尼大学

95.【3D常见损坏和数据增强】3D Common Corruptions and Data Augmentation
● 论文摘要：我们引入了一组图像转换，可以作为“腐蚀”来评估模型的稳健性，以及用于训练神经网络的“数据增强”机制。提议的转换的主要区别在于，与Common Corruptions等现有方法不同，场景的几何结构被纳入到转换中——因此导致更有可能发生在现实世界中的腐败。我们展示了这些转换是“高效的”(可以实时计算)、“可扩展的”(可以应用于真实图像的大多数数据集)，暴露了现有模型的脆弱性，并可以有效地使模型在用作“3D数据增强”机制时更加健壮。我们在多个任务和数据集上进行的评估表明，将3D信息整合到鲁棒性基准测试和训练中，为鲁棒性研究开辟了一个有前途的方向。
● 论文主页：https://3dcommoncorruptions.epfl.ch/
● 论文链接：https://arxiv.org/abs/2203.01441
● 作者单位：瑞士联邦理工学院

96.【用于异常检测的自监督预测卷积注意力块】Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection
● 论文摘要：异常检测通常被视为一类分类问题，其中模型只能从正常训练样本中学习，同时对正常和异常测试样本进行评估。在成功的异常检测方法中，有一类特殊的方法依赖于预测被屏蔽信息(如补丁、未来帧等)，并利用与被屏蔽信息相关的重构错误作为异常评分。与相关方法不同，我们提出将基于重构的功能集成到一种新的自监督预测架构构建块中。提出的自监督块是通用的，可以很容易地合并到各种最新的异常检测方法。我们的区块从一个带有放大滤波器的卷积层开始，接收区域的中心区域被掩盖了。生成的激活映射通过一个通道注意模块传递。我们的块配备了一个损失，使相对于接收域的掩码区域的重构误差最小化。我们通过将区块集成到图像和视频异常检测的几个最先进的框架中，展示了我们的区块的通用性，并提供了经验证据，显示了MVTec AD、Avenue和ShanghaiTech的显著性能改进。
● 论文链接：https://arxiv.org/abs/2111.09099
● 作者单位：布加勒斯特理工大学、MBZ大学、丹麦奥尔堡大学、布加勒斯特大学等

97.【通过对齐特征学习压缩数据集】CAFE: Learning to Condense Dataset by Aligning Features
● 论文摘要：数据集压缩是为了将一个繁琐的训练集压缩成一个紧凑的综合训练集，从而减少网络训练的工作量。最先进的方法主要依赖于通过匹配真实数据批和合成数据批之间的梯度来学习合成数据。尽管这种基于梯度的方法具有直观的动机和有希望的结果，但从本质上讲，这种方法很容易过度拟合到产生主导梯度的有偏差的样本集，因此缺乏对数据分布的全球监督。本文提出了一种通过特征对齐来压缩数据集(CAFE)的新方案，该方案明确地试图保持合成集的真实特征分布和判别能力，从而使其在各种体系结构中具有较强的泛化能力。我们的方法的核心是一种有效的策略，在考虑真实样本分类的同时，将真实数据和合成数据在不同尺度上的特征进行对齐。我们的方案进一步支持一个新的动态双层优化，自适应调整参数更新，以防止过度/欠拟合。我们在不同的数据集上验证了提出的CAFE，并证明它通常优于目前的技术水平:例如，在SVHN数据集上，性能增益高达11%。大量的实验和分析验证了所提出设计的有效性和必要性。
● 论文链接：https://arxiv.org/abs/2203.01531
● 论文代码：https://github.com/kaiwang960112/cafe
● 作者单位：新加坡国立大学、爱丁堡大学、PhiGent机器人、悉尼科技大学、中科院自动化所

98.【用于网络校准的基于边缘的标签平滑】The Devil is in the Margin: Margin-based Label Smoothing for Network Calibration
● 论文摘要：尽管深度神经网络的表现占主导地位，但最近的研究表明，它们的校准很差，导致了过度自信的预测。由于训练过程中交叉熵的最小化，过度拟合会加剧校准错误，因为它会提高预测的softmax概率来匹配一个热标签分配。这将生成正确类的softmax前激活，这个激活比其余的激活要大得多。最近的文献证据表明，损失函数嵌入隐式或显式最大熵的预测产生了最先进的校准性能。我们提供了当前最先进的校准损耗的统一约束优化视角。具体来说，这些损失可以被视为线性惩罚(或拉格朗日函数)的近似值，对对数距离施加等式约束。这指出了这种潜在的等式约束的一个重要限制，其随之而来的梯度不断推动非信息解，这可能会阻止在基于梯度的优化过程中，在区分性能和模型校准之间达成最佳妥协。根据我们的观察，我们提出了一个简单和灵活的推广基于不等式约束，它施加了一个可控的边际logit距离。在各种图像分类、语义分割和NLP基准上的综合实验表明，我们的方法在网络标定方面，在不影响判别性能的情况下，在这些任务上设置了新的最新的结果。
● 论文链接：https://arxiv.org/abs/2111.15430
● 论文代码：https://github.com/by-liu/mbls
● 作者单位：蒙特利尔大学、伯恩茅斯大学

99.【通过引入查询去噪加速 DETR 训练】DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
● 论文摘要：本文提出了一种新的去噪训练方法来加速DETR(检测变压器)的训练，并加深了对类似DETR方法的慢收敛问题的理解。结果表明，由于二部图匹配的不稳定性导致早期训练阶段的优化目标不一致，导致算法收敛速度较慢。为了解决这一问题，除匈牙利损失外，我们的方法还将带噪声的地真包围盒输入Transformer解码器，训练模型重构原始盒，有效地降低了二部图匹配难度，收敛速度更快。我们的方法是通用的，可以通过添加几十行代码轻松地插入任何类似detr的方法来实现显著的改进。因此，在相同的设置下，我们的DN-DETR有显著的提高(+1.9AP)，并且在ResNet-50骨干的类detr方法中，在12和50个训练epoch时分别获得了最佳的AP 43.4和48.6。与相同设置下的基线相比，DN-DETR在50%的训练时间内取得了相当的性能。
● 论文链接：https://arxiv.org/abs/2203.01305
● 论文代码：https://github.com/FengLi-ust/DN-DETR
● 作者单位：香港科技大学、国际数字经济学院、清华大学、香港科技大学(广州)

100.【用于长尾识别的有针对性的监督对比学习】Targeted Supervised Contrastive Learning for Long-Tailed Recognition
● 论文摘要：现实世界的数据经常显示出带有严重类别不平衡的长尾分布，在这种情况下，大多数类别可以主导训练过程，并改变少数类别的决策边界。最近，研究人员研究了监督对比学习在长尾识别中的潜力，并证明它提供了强大的性能增益。在本文中，我们表明，尽管监督对比学习可以帮助提高性能，但过去的基线受到不平衡数据分布带来的不均匀性的影响。这种较差的均匀性表现在少数类的样本在特征空间中的可分离性较差。为了解决这一问题，我们提出了有针对性的监督对比学习(TSC)，它提高了超球上特征分布的均匀性。TSC首先生成一组均匀分布在超球体上的目标。然后在训练过程中，将不同类别的特征收敛到这些不同且均匀分布的目标上。这迫使所有类，包括少数类，在特征空间中保持均匀分布，改善了类的边界，即使在长尾数据存在的情况下也能提供更好的泛化。在多数据集上的实验表明，TSC在长尾识别任务上取得了最先进的性能。
● 论文链接：https://arxiv.org/abs/2111.13998
● 作者单位：MIT

101.【三重对比学习的视觉语言预训练】Vision-Language Pre-Training with Triple Contrastive Learning
● 论文摘要：视觉语言表征学习在很大程度上受益于图像-文本的对比损耗(例如InfoNCE损耗)。这种对齐策略的成功是由于它能够最大化图像与匹配文本之间的互信息(MI)。然而，简单地执行交叉模态对齐(CMA)忽略了每个模态中的数据潜力，这可能导致表示的退化。例如，尽管基于cma的模型能够将图像-文本对在嵌入空间中紧密地映射在一起，但它们不能确保来自相同模态的相似输入保持在一起。当训练前的数据有噪声时，这个问题会变得更糟。在本文中，我们提出了利用跨模态和内模态自我监督的三重对比学习(TCL)来进行视觉语言前训练。除了CMA之外，TCL还引入了一个模态内对比目标，以在表示学习中提供互补的好处。为了利用来自图像和文本输入的局部和结构信息，TCL进一步最大化了图像/文本局部区域和它们的全局摘要之间的平均MI。据我们所知，我们的工作是第一个考虑到局部结构信息的多模态表示学习。实验评估表明，我们的方法在各种常见的下游视觉语言任务，如图像-文本检索和视觉问题回答上具有竞争力，达到了最新的技术水平。
● 论文链接：https://arxiv.org/abs/2202.10401
● 论文代码：https://github.com/uta-smile/TCL
● 作者单位：德克萨斯大学阿灵顿分校、亚马逊

102.【将视频场景图重新格式化为时间二分图】Classification-Then-Grounding: Reformulating Video Scene Graphs as Temporal Bipartite Graphs
● 论文摘要：目前的VidSGG模型都是基于提议的方法，即首先生成大量成对的主题-对象片段作为提议，然后对每个提议进行谓词分类。在本文中，我们认为这种流行的基于提议的框架有三个固有的缺点:1)提议的基础真理谓词标签是部分正确的。2)它们打破了同一主-客体对不同谓词实例之间的高阶关系。3) VidSGG的性能受提案质量的限制。为此，我们提出了一种新的VidSGG分级接地框架，该框架可以避免所有三个被忽视的缺点。同时，在此框架下，我们将视频场景图重构为时间二部图，其中实体和谓词是两种具有时隙的节点，边缘表示这些节点之间的不同语义角色。这个提法充分利用了我们的新框架。据此，我们进一步提出了一种新的基于二部图的SGG模型:BIG。具体来说，BIG包括两个部分:分类阶段和基础阶段，基础阶段的目标是对所有节点和边缘的类别进行分类，基础阶段的目标是对每个关系实例的时间位置进行定位。对两个VidSGG数据集的广泛消融证明了我们的框架和BIG的有效性。
● 论文链接：https://arxiv.org/abs/2112.04222
● 论文代码：https://github.com/dawn-lx/vidvrd-tracklets
● 作者单位：浙江大学、哥伦比亚大学、南洋理工大学

103.【增强深度度量学习的对抗鲁棒性】Enhancing Adversarial Robustness for Deep Metric Learning
● 论文摘要：由于对抗脆弱性的安全影响，需要提高深度度量学习模型的对抗鲁棒性。为了避免模型因过于复杂的例子而崩溃，现有的防御方法忽略了最小-最大值对抗训练，而是从弱小的对手那里低效地学习。相反地，我们提出了硬度操作，根据一个较硬的良性三重组或伪硬度函数，有效地扰动训练三重组直到指定的硬度水平，进行对抗训练。由于常规训练和最小-最大对抗训练是它的边界情况，因此它具有灵活性。此外，在渐进对手的基础上，提出了伪硬度函数族，在训练过程中逐步提高指定的硬度水平，以更好地平衡性能和鲁棒性。此外，在良性例子和对抗例子中引入类内结构损失项，进一步提高了模型的鲁棒性和效率。综合实验结果表明，该方法虽然形式简单，但在鲁棒性、训练效率以及在良性实例上的性能方面都远远优于现有的防御技术。
● 论文链接：https://arxiv.org/abs/2203.01439
● 作者单位：约翰霍普金斯大学

104.【分层对比选择性编码】HCSC: Hierarchical Contrastive Selective Coding
● 论文摘要：图像数据集中自然存在层次语义结构，多个语义相关的图像聚类可以进一步集成到一个语义更粗粒度的大聚类中。用图像表示捕获这样的结构可以极大地促进对各种下游任务的语义理解。现有的对比表示学习方法缺乏这样一种重要的模型能力。此外，这些方法中使用的负对在语义上不能保证是不同的，这可能会进一步妨碍学习后的图像表示的结构正确性。为了解决这些局限性，我们提出了一种新的对比学习框架，称为分层对比选择编码(Hierarchical contrast Selective Coding, HCSC)。在该框架中，构建了一组层次原型，并动态更新原型来表示潜在空间中数据的层次语义结构。为了使图像表示更适合这种语义结构，我们采用并进一步改进传统的实例和原型对比学习，通过一个精心设计的对选择方案。该方案旨在选择语义相似的更多样化的正对和语义真正不同的更精确的负对。在广泛的下游任务中，我们验证了HCSC优于最先进的对比方法，大量的分析研究证明了主要模型组件的有效性。
● 论文链接：https://arxiv.org/abs/2202.00455
● 论文代码：https://github.com/gyfastas/hcsc
● 作者单位：上海交通大学、米拉-魁北克AI研究所、蒙特利尔大学、字节跳动

105.【为连体表示学习制作更好的对比视图】Crafting Better Contrastive Views for Siamese Representation Learning
● 论文摘要：最近的自我监督对比学习方法极大地受益于Siamese结构，该结构旨在最小化正对之间的距离。对于高性能的暹罗表示学习，关键之一是设计好的对比对。以往的工作大多只是简单地采用随机采样的方法对同一幅图像进行不同的裁剪，忽略了可能会降低图像质量的语义信息。在这项工作中，我们提出了对比作物，可以有效地生成更好的作物，以用于暹罗人的表示学习。首先，在训练过程中以完全无监督的方式提出了一种语义感知的对象定位策略。这引导我们生成对比视图，可以避免大多数误报(例如，物体与背景)。此外，我们的经验发现，具有相似外观的视图对于暹罗模型的训练是微不足道的。因此，进一步设计了中心抑制抽样来扩大作物的方差。值得注意的是，我们的方法仔细考虑了对比学习的正对，而额外的训练开销可以忽略不计。作为一个即插即用和框架无关的模块，ContrastiveCrop不断地提高SimCLR, MoCo, BYOL, SimSiam在CIFAR-10, CIFAR-100, Tiny ImageNet和STL-10上的分类精度0.4% ~ 2.0%。在ImageNet-1K上进行预处理后，在下游检测和分割任务上也取得了较好的结果。
● 论文链接：https://arxiv.org/abs/2202.03278
● 论文代码：https://github.com/xyupeng/contrastivecrop
● 作者单位：新加坡国立大学、清华大学、阿里巴巴

106.【自监督学习视觉模型中social biases分布的研究】A study on the distribution of social biases in self-supervised learning visual models
● 论文摘要：如果充分采样，深度神经网络在学习数据分布方面是有效的。然而，训练数据中隐含的非相关因素可能会对它们产生强烈的偏倚。这些包括操作偏差，如无效或不均匀的数据采样，但也有道德问题，因为社会偏差在培训数据中或在不公平的培训计划中明确定义。在对人类过程有影响的任务中，对社会偏见的学习可能会产生歧视性、不道德和不值得信任的后果。人们通常认为，社会偏见源于对标记数据的监督学习，因此，自我监督学习(Self-Supervised learning, SSL)错误地成为一种高效且无偏见的解决方案，因为它不需要标记数据。然而，最近证明流行的SSL方法也包含了偏见。在本文中，我们研究了一系列不同的SSL可视化模型的偏差，这些模型使用ImageNet数据进行训练，使用由心理学专家设计的方法和数据集来测量社会偏差。我们展示了SSL模型的类型和它包含的偏差数量之间的相关性。此外，结果还表明，这一数字并不严格依赖于模型的准确性和整个网络的变化。最后，我们得出结论，谨慎的SSL模型选择过程可以减少部署模型中的社会偏见的数量，同时保持高性能。
● 论文链接：https://arxiv.org/pdf/2203.01854.pdf
● 作者单位：马德里自治大学

107.【从单个 RGB-D 视频序列中学习个性化的隐式神经化身】PINA: Learning a Personalized Implicit Neural Avatar from a Single RGB-D Video Sequence
● 论文摘要：提出了一种从短RGB-D序列中学习个性化隐式神经化身(PINA)的新方法。这允许非专业用户创建一个详细和个性化的自己的虚拟副本，可以与现实的服装变形动画。PINA不需要完全的扫描，也不需要事先从穿着衣服的人的大数据集中学习。在这种环境中学习一个完整的角色是一种挑战，因为只有很少的深度观察是可用的，并且是嘈杂且不完整的(即每帧只有部分身体的可见性)。我们提出了一种方法来学习形状和非刚性变形通过一个位姿条件隐式曲面和变形场，定义在正则空间。这允许我们将所有的部分观测结果融合成一个统一的规范表示。融合是一个全局优化问题的姿态，形状和蒙皮参数。该方法可以从真实嘈杂的RGB-D序列中学习各种不同的人物和服装风格的神经化身，这些化身可以被赋予看不见的运动序列。
● 论文主页：https://zj-dong.github.io/pina/ ● 论文链接：https://arxiv.org/abs/2203.01754
● 作者单位：苏黎世联邦理工学院、杜本根大学、马普智能系统研究所

108.【小样本语义分割新视角】Learning What Not to Segment: A New Perspective on Few-Shot Segmentation
● 论文摘要：当前小样本语义分割的研究大多通过元学习框架来实现泛化；然而，在这样的范式下训练的模型往往存在基类偏执，而非理想化的类别无关。为此，本文提出在小样本分割模型(元学习器)上引入一个分支(基学习器)来明确地识别基类的目标，即不需要分割的区域。然后，对两个学习器并行输出的粗结果进行自适应集成以得到精确的预测。更令人惊讶的是，我们的方案利用两个朴素的学习者获得了最优异的性能指标，并能够扩展至更具挑战性的广义设置。
● 作者：郎春博,程塨,屠斌飞,韩军伟
● 作者单位：西北工业大学

109.【小样本语义分割新视角】Exploring Effective Data for Surrogate Training Towards Black-box Attack
● 论文摘要：在无法获取目标模型的训练数据时，利用本地训练的代理模型完成对目标模型的攻击对于AI安全性来说兹事体大。本文深入探索了对于代理训练最为有效的数据所具备的类别特性——类间相似性及类内多样性，分析了基于合成数据的代理训练方法的潜在优势，进而构建了一个面向黑盒攻击算法的代理训练框架、展示了代理数据对于提升代理训练的潜在优势、设计了两个替代模型的优化目标函数，大大提升了代理模型的训练效率。
● 作者：孙绪祥,程塨,李虹达,裴蕾,韩军伟
● 作者单位：西北工业大学

110.【基于增量跨视图互蒸馏学习机制的CT影像生成】Incremental Cross-view Mutual Distillation for Self-supervised Medical CT Synthesis
● 论文摘要：高分辨率CT影像可以帮助医生及医疗AI系统进行精确的影像学分析与疾病诊断，然而由于人体结构的特点，轴向视角的CT影像很难获得足够高的片间分辨率。为此，本文构建了一种自监督的轴向视角CT切片生成方法，提出了增量跨视图互蒸馏学习机制，利用矢状面视角影像和冠状面视角影像的高分辨率先验构建其与轴向视角影像的一致性约束；通过联合迭代不同视角的影像插值过程，实现轴向视角影像片间分辨率的增量式提升，改善模型应对具有不同层厚的CT影像的鲁棒性。
● 论文链接：https://arxiv.org/abs/2112.10325
● 作者：方超伟,王良,徐君,袁奕萱,张鼎文,韩军伟
● 作者单位：西北工业大学

111.【基于鲁棒区域特征生成的零样本目标检测】Robust Region Feature Synthesizer for Zero-Shot Object Detection
● 论文摘要：零样本目标检旨在提升模型对训练阶段不可见目标类的检测能力。传统的零样本学习模型在该任务环境下难以为未见目标生成具有足够类内多样性的区域特征，亦或是牺牲掉部分未见目标与图像背景的可区分性。在本研究中，我们充分考虑到物体检测任务的独特性，提出利用训练图像所包含的丰富的前背景区域特征来同时保持未见目标特征的类内多样性和类间可区分性，首次实现了同时针对可见目标类和不可见目标类的统一目标检测模型，并提供了首个零样本遥感目标检测的benchmark。
● 论文链接：https://arxiv.org/abs/2201.00103 ● 作者：黄培亮,韩军伟,程德,张鼎文
● 作者单位：西北工业大学

112.【弱监督旋转不变目标检测】Weakly Supervised Rotation-Invariant Aerial Object Detection Network
● 论文摘要：目标旋转是弱监督目标检测中长期存在但仍未深入研究的难题之一。本文提出了一种旋转不变弱监督目标检测网络，通过渐进精炼的方式，鼓励不同的分支对具有不同旋转角度的同一实例做出一致的预测，首次在图像级标签下实现旋转不变学习。与此同时，该网络自然地将对象实例从稀疏空间投射到具有不同角度感知旋转的子空间。通过耦合不同的子空间以挖掘更多不同角度的目标实例，训练更加鲁棒的旋转不变目标检测网络。
● 作者：冯晓绪,姚西文,程塨,韩军伟
● 作者单位：西北工业大学

113.【基于非目标知识信息学习的小样本语义分割】Learning Non-target Knowledge for Few-shot Semantic Segmentation
● 论文摘要：现有小样本语义分割研究仅侧重于有效地挖掘目标物体的信息。然而，对于背景和干扰物体等非目标区域中的模糊区域，目前的方法往往难以分辨。为此，本文提出在仅使用已知的目标物体标签的前提下，通过背景损失函数来指导类别无关的背景原型学习，从而实现对背景的挖掘排除。然后，我们进一步找到与当前查询图像相关的干扰物体信息并排除。此外，我们提出了一种原型对比学习算法，以提高模型区分目标对象与干扰物体的能力。
● 作者：刘源炜,刘念,曹清龙,姚西文,韩军伟,邵岭
● 作者单位：西北工业大学

114.【利用自我监督进行跨领域人群计数】Leveraging Self-Supervision for Cross-Domain Crowd Counting
● 论文摘要：在拥挤场景中统计人数的最先进的方法依赖于深度网络来估计人群密度。虽然这些数据驱动的方法很有效，但它们依赖于大量的数据注释来实现良好的性能，从而避免在数据注释成本过高或获取速度不够快的紧急情况下部署这些模型。一种流行的解决方案是使用合成数据进行训练。不幸的是，由于域漂移，所得到的模型在真实图像上的泛化效果很差。我们通过训练合成图像及其相关标签和未标签的真实图像来弥补这个缺点。为此，我们通过训练网络从常规图像中识别颠倒的真实图像，并将预测自身不确定性的能力整合到网络中，从而迫使网络学习透视图感知特征，以便生成有用的伪标签来进行微调。这就产生了一种算法，在推理时不需要任何额外的计算，它的性能始终优于最先进的跨域人群计数算法。
● 论文链接：https://arxiv.org/abs/2103.16291
● 作者单位：洛桑综合理工学院(EPFL)

115.【基于稀疏观察的流化身生成】FLAG: Flow-based Avatar Generation from Sparse Observations
● 论文摘要：为了在混合现实应用中代表人们进行协作和交流，我们需要生成逼真和可信的化身姿势。然而，用于这项任务的头戴式设备(HMDs)的信号流通常仅限于头姿和手姿估计。虽然这些信号很有价值，但它们是人体的完整表征，这使得生成一个忠实的全身化身颇具挑战性。我们通过开发一个基于流的三维人体生成模型来解决这个挑战，通过稀疏的观察，我们不仅了解了三维人体姿势的条件分布，但也有一个从观察到潜在空间的概率映射从中我们可以产生一个貌似合理的姿势以及关节的不确定性估计。结果表明，我们的方法不仅是一个强大的预测模型，而且可以作为一个有效的姿态先验，在不同的优化设置中，良好的初始潜在代码起主要作用。
● 论文主页：https://microsoft.github.io/flag/
● 论文链接：https://microsoft.github.io/flag/files/paper.pdf
● 作者单位：微软

116.【深度3D- 2D水印:在3D网格中嵌入信息，并从2D渲染图中提取信息】Deep 3D-to-2D Watermarking: Embedding Messages in 3D Meshes and Extracting Them from 2D Renderings
● 论文摘要：数字水印广泛应用于版权保护。传统的3D水印方法或商业软件通常是将信息嵌入到3D网格中，然后直接从失真/未失真的3D网格中检索信息。然而，从这样的网格的2D渲染中检索信息仍然具有挑战性，而且还没有得到充分的开发。我们引入了一个新的端到端学习框架来解决这个问题:1)编码器秘密地嵌入信息在网格几何和纹理;2)可区分的渲染器，从不同的摄像机角度和不同的光照条件下渲染带水印的3D物体;3)从2D渲染图像中恢复信息的解码器。从广泛的实验中，我们表明，我们的模型学会了嵌入人类在视觉上无法察觉的信息，并从2D渲染图中重建嵌入的信息，该信息对3D变形具有鲁棒性。此外，我们还演示了我们的方法可以通用于不同的渲染器，例如光线跟踪器和实时渲染器。
● 论文链接：https://arxiv.org/abs/2104.13450
● 作者单位：Google

117.【少即是多:从地标生成地面导航指示】Less is More: Generating Grounded Navigation Instructions from Landmarks
● 论文摘要：我们研究了从室内路线上采集的360度图像中自动生成导航指令。现有的生成器存在较差的视觉基础，导致它们依赖于语言先验和幻觉物体。我们的MARKY-MT5系统通过专注于视觉地标来解决这个问题;它包括第一级地标检测器和第二级发生器-多模态、多语言、多任务编码器-解码器。为了训练它，我们在Room-across-Room (RxR)数据集之上引导接地地标注释。使用文本解析器、RxR姿态轨迹的弱监督，以及一个针对1.8b图像训练的多语言图像-文本编码器，我们识别出110万篇英语、印地语和泰卢古语地标描述，并将它们固定在全景图中的特定区域。在“房间到房间”项目中，按照MARKY-MT5的指令，人类寻路者的成功率(SR)达到了71%，略低于人类指令的75%，远高于其他生成器的成功率。在三种语言上，对RxR较长的不同路径的评估获得61-64%的sr。在新环境中生成这样高质量的导航指令是向对话式导航工具迈出的一步，它可以促进对指令跟随代理的大规模训练。
● 论文链接：https://arxiv.org/abs/2111.12872
● 作者单位：Google

118.【基于小批量特征交换的三维形状变分自编码器潜在解纠缠】3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swapping for Bodies and Faces
● 论文摘要：在人脸和身体的三维生成模型中学习解纠缠的、可解释的和结构化的潜在表示仍然是一个开放的问题。当需要控制身份特征时，这个问题尤其严重。在本文中，我们提出了一种直观而有效的自监督方法来训练一个3D形状变分自动编码器(VAE)，它鼓励身份特征的解纠缠潜在表示。通过在不同形状之间交换任意特征来管理小批量生成，可以利用潜在表示中的已知差异和相似点来定义损失函数。在三维网格上进行的实验结果表明，最先进的潜在解纠缠方法不能解出人脸和身体的身份特征。我们提出的方法适当地解耦了这些特征的生成，同时保持良好的表示和重构能力。
● 论文链接：https://arxiv.org/abs/2111.12448
● 作者单位：英国伦敦大学学院

119.【利用小块地球移动者的距离重新排序可改善非分布人脸识别】DeepFace-EMD: Re-ranking Using Patch-wise Earth Mover’s Distance Improves Out-Of-Distribution Face Identification
● 论文摘要：人脸识别(FI)无处不在，并驱动执法部门做出许多高风险决策。最先进的FI方法通过取图像嵌入之间的余弦相似度来比较两幅图像。然而，这样的方法会对新类型的图像(例如，当一个查询面被蒙面、裁剪或旋转时)产生不良的非分布(OOD)泛化问题，这些图像不包括在训练集或图库中。在此，我们提出了一种重新排序的方法，利用地球移动者的距离对图像斑块的深度、空间特征进行比较。我们额外的比较阶段明确地在细粒度级别(例如，眼睛对眼睛)检查图像的相似性，比传统FI对OOD扰动和遮挡更鲁棒。有趣的是，在没有微调特征提取器的情况下，我们的方法不断地提高了所有测试的OOD查询的准确性:掩码、裁剪、旋转和对抗查询，同时在分布中的图像上获得类似的结果。
● 论文主页：https://anhnguyen.me/project/deepface-emd/ ● 论文链接：https://arxiv.org/abs/2112.04016
● 论文代码：https://github.com/anguyen8/deepface-emd
● 作者单位：奥本大学、卡耐基梅隆大学

120.【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
● 论文摘要：从视频数据中进行的多模态学习最近受到了越来越多的关注，因为它允许训练语义上有意义的嵌入，而无需人工标注，从而实现了零镜头检索和分类等任务。在这项工作中，我们提出了一种多模态、模态不可知的融合Transformer方法，它学习在多种模态之间交换信息，例如视频、音频和文本，并将它们集成到一个连接的多模态表示中，以获得一个聚合多模态时间信息的嵌入。我们建议在训练系统的同时对所有的东西进行组合损失，无论是单个模式还是成对的模式，明确地排除任何附加的东西，如位置或模式编码。在测试时，得到的模型可以处理和融合任意数量的输入模式。此外，变压器的隐式特性允许处理不同长度的输入。为了评估所提出的方法，我们在大规模的HowTo100M数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果嵌入空间，获得了在零拍视频检索和零拍视频动作定位方面的最先进的结果。
● 论文链接：https://arxiv.org/abs/2112.04446
● 作者单位：法兰克福歌德大学、哥伦比亚大学、麻省理工学院、IBM、德州大学奥斯汀分校等

121.【开放领域，基于内容，多模态的事实核查脱离上下文的图像通过在线资源】Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context Images via Online Resources
● 论文摘要：错误信息现在是一个主要问题，因为它对我们的核心民主和社会价值观和秩序具有潜在的高风险。脱离上下文的错误信息是敌人用来传播虚假故事的最简单和有效的方法之一。在这种威胁中，真实的图像通过歪曲上下文和/或元素来支持其他叙述。互联网正被用作核实信息来源和方式的首选方式。我们的目标是一种可检查的方法，通过使用Web证据对图像和标题进行事实核查，从而自动化这个耗时且需要大量推理的过程。为了整合来自两种模式的证据和线索，我们引入了“多模态循环一致性检验”的概念;从图像/标题开始，我们收集文本/视觉证据，分别与另一对标题/图片进行比较。此外，我们提出了一种新颖的架构，一致性检查网络(CCN)，它通过相同和不同的模式模拟分层的人类推理:字幕与文本证据，图像与视觉证据，以及图像与字幕。我们的工作为开放领域、基于内容、多模式的事实核查提供了第一步和基准，并显著优于以前没有利用外部证据的基线。
● 论文链接：https://arxiv.org/abs/2112.00061
● 作者单位：美国信息安全协会亥姆霍兹信息安全中心

122.【逆向工程3D对象从点云到挤压圆柱体】Point2Cyl: Reverse Engineering 3D Objects from Point Clouds to Extrusion Cylinders
● 论文摘要：我们提出了Point2Cyl，一个监督网络，将一个原始的3D点云转换为一组挤压圆柱体。从原始几何到CAD模型的逆向工程是在形状编辑软件中操作三维数据的一项基本任务，从而扩大其在许多下游应用中的应用。特别是CAD模型的形式有一系列挤压缸,2 d草图+一个挤压轴和范围——和他们的布尔组合不仅广泛应用于CAD社区/软件还具有表现性的形状,而在有限的原语类型(如飞机、球体和圆柱体)。在本研究中，我们引入一种神经网络，通过学习潜在的几何代理，以几何为基础的方法来解决挤压筒分解问题。准确地说，我们的方法首先预测逐点分割、基/桶标签和法线，然后以可微分和封闭形式的公式估计潜在的挤压参数。我们的实验表明，我们的方法在最近的两个CAD数据集Fusion Gallery和DeepCAD上显示了最好的性能，我们进一步展示了我们的方法在逆向工程和编辑。
● 论文链接：https://arxiv.org/abs/2112.09329
● 作者单位：斯坦福大学、KAIST、欧特克研究中心

123.【面向实用的自监督单目室内深度估计】Toward Practical Self-Supervised Monocular Indoor Depth Estimation
● 论文摘要：大多数自监督单目深度估计方法主要集中在驾驶场景。我们表明，这样的方法很难推广到看不见的复杂室内场景，其中物体是杂乱的，任意安排在近场。为了获得更强的鲁棒性，我们提出了一种结构蒸馏方法，从一个预先训练的深度估计器学习技巧，该估计器由于在野外混合数据集训练而产生结构化但度量未知的深度。通过将精馏与从左右一致性学习度量的自监督分支相结合，我们获得了一般室内场景的结构化和度量深度，并进行实时推理。为了促进学习和评估，我们收集了SimSIN，一个包含数千个环境的模拟数据集，和UniSIN，一个包含大约500个普通室内环境的真实扫描序列的数据集。我们在模拟到真实和真实到真实的环境中进行了实验，并在定性和定量上展示了改进，以及在使用我们的深度图的下游应用中。这项工作提供了一个全面的研究，包括方法，数据和应用。我们认为，该工作为通过自我监督进行实际的室内深度估算奠定了坚实的基础。
● 论文链接：https://arxiv.org/abs/2112.02306
● 作者单位：Meta Reality Labs、南加州大学

124.【通过增强传播和对齐来提高视频的超分辨率】BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
● 论文摘要：循环结构是视频超分辨率任务的常用框架选择。最先进的BasicVSR方法采用双向传播和特征对齐的方法，有效地利用整个输入视频中的信息。在本研究中，我们通过提出二阶网格传播和流动引导的可变形排列，重新设计了BasicVSR。我们证明，通过赋予循环框架增强传播和对齐，可以更有效地利用跨未对齐视频帧的时空信息。在类似的计算约束下，新组件的性能得到了改善。特别是在参数数量相似的情况下，我们的模型BasicVSR++在PSNR上比BasicVSR高出0.82 dB。除了视频超分辨率外，BasicVSR++还可以很好地推广到其他视频恢复任务，如压缩视频增强。在NTIRE 2021年，BasicVSR++在视频超分辨率和压缩视频增强挑战中获得三名冠军和一名亚军。代码和模型将发布到MMEditing。
● 论文链接：https://arxiv.org/abs/2104.13371
● 论文代码：https://github.com/open-mmlab/mmediting
● 作者单位：新加坡南洋理工大学

125.【联合全局和局部层次先验学习图像压缩】Joint Global and Local Hierarchical Priors for Learned Image Compression
● 论文摘要：近年来，学习的图像压缩方法与传统的手工图像编解码器(包括BPG)相比，表现出了优越的性能。学习图像压缩的一个基本研究方向是建立熵模型，准确估计量化后的潜在表示的概率分布。与其他视觉任务一样，最近学习的熵模型大多基于卷积神经网络(convolutional neural networks, cnn)。然而，由于cnn的局部连通性，在建模遥远区域之间的依赖关系方面存在局限性，这可能是图像压缩中的一个重要瓶颈，而减少空间冗余是图像压缩的关键。为了解决这个问题，我们提出了一种新的熵模型，称为信息转换器(Informer)，它使用一种注意机制，以一种内容依赖的方式利用局部和全局信息。我们的实验表明，在Kodak和Tecnick数据集上，Informer比最先进的方法提高了率失真性能，而没有二次计算复杂性问题。
● 论文链接：https://arxiv.org/abs/2112.04487
● 作者单位：韩国延世大学、NAVER AI Lab

126.【基于随时推理的类增量模糊任务配置的在线持续学习】Online Continual Learning on Class Incremental Blurry Task Configuration with Anytime Inference
● 论文摘要：尽管在持续学习方面取得了快速进展，但仍有大量的研究致力于改善现有设施中的绩效。虽然有一些工作确实提出了新的持续学习机制，但它们在某些方面仍然缺乏实用性。为了更好的实用性，我们首先提出了一种新颖的持续学习设置，它是在线的，无任务的，类增量的，任务边界模糊的，并随时接受推理查询。此外，我们还提出了一个新的度量指标，以更好地衡量推理查询下的连续学习方法在任何时刻的性能。为了解决挑战性的设置和评估协议，我们提出了一种有效的方法，采用了新的内存管理方案和新的学习技术。我们的实证验证表明，所提出的方法优于现有的技术在很大程度上的优势。
● 论文链接：https://arxiv.org/abs/2110.10031
● 作者单位：韩国光州科学技术学院(GIST)、NAVER AI Lab

127.【学习带有部分标注组标签的公平分类器】Learning Fair Classifiers with Partially Annotated Group Labels
● 论文摘要：最近，意识到公平的学习变得越来越重要，但我们注意到，这些方法中的大多数都是通过假设有完整注释的组标签的可用性来操作的。我们强调，这种假设对于现实世界的应用程序来说是不现实的，因为组标签标注的开销很大，而且可能与隐私问题相冲突。在本文中，我们考虑一个更实际的场景，称为算法公平与部分标注组标签(Fair-PG)。我们观察到，在Fair-PG下，现有的公平性方法只使用组标签的数据，表现甚至比普通训练更差，后者只使用目标标签的完整数据。为了解决这个问题，我们提出了一种简单的基于信心的组标签分配(CGL)策略，该策略可适用于任何公平意识学习方法。我们的CGL利用一个辅助组分类器来分配伪组标签，其中随机标签被分配给低置信样本。我们首先从理论上证明了我们的方法设计在公平性标准方面优于普通的伪标记策略。然后，我们对UTKFace、CelebA和COMPAS数据集进行了实证研究，结果表明，通过将CGL和最先进的公平性感知内处理方法相结合，目标精度和公平性指标与基线方法相比都得到了改善。此外，我们令人信服地表明，我们的CGL能够自然地扩大给定的组标记数据集与外部数据集只与目标标签，从而提高准确性和公平性指标。我们将公开发布我们的实施方案，让未来的研究重现我们的成果。
● 论文链接：https://arxiv.org/abs/2111.14581
● 作者单位：国立首尔大学、NAVER AI Lab

128.【超越语义到实例分词:基于语义知识转移和自细化的弱监督实例分词】Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement
● 论文摘要：弱监督实例分割(WSIS)被认为是一个比弱监督语义分割(WSSS)更具挑战性的任务。与WSSS相比，WSIS需要基于实例的定位，这很难从图像级标签中提取。为了解决这个问题，大多数WSIS方法使用现成的提议技术，这些技术需要使用实例或对象级标签进行预先训练，偏离了完全图像级监督设置的基本定义。在本文中，我们提出了一种包括两个创新组件的新方法。首先，我们提出了一种语义知识转移，通过将WSSS知识转移到WSIS来获取伪实例标签，同时消除了对现成提议的需求。其次，我们提出了一种自细化方法来细化自监督方案中的伪实例标签，并以在线方式使用细化后的标签进行训练。这里，我们发现了一个错误的现象，语义漂移，它是由被归类为背景类的伪实例标签中缺失的实例引起的。这种语义漂移会在训练中造成背景与实例的混淆，从而降低分割性能。我们将此问题称为语义漂移问题，并证明我们所提出的自细化方法消除了语义漂移问题。在PASCAL VOC 2012和MS COCO上的大量实验证明了我们的方法的有效性，并且我们在没有现成的提案技术的情况下实现了相当大的性能。代码很快就会发布。
● 论文链接：https://arxiv.org/abs/2109.09477
● 作者单位：NAVER CLOVA、NAVER AI Lab、仁荷大学、KAIST

129.【神经点光场】Neural Point Light Fields
● 论文摘要：我们引入了神经点光场，它隐式地用一个光场来表示稀疏点云上的场景。将可微体绘制与学习的隐式密度表示相结合，可以为小场景的新颖视图合成真实感图像。由于神经体绘制方法需要对底层的功能性场景表示进行密集采样，在沿着穿过体的光线投射的数百个样本中，它们从根本上局限于将相同的对象投射到数百个训练视图中的小场景。将稀疏点云推广到神经隐式光场，使我们可以有效地表示大型场景，每条光线只需要一个隐式采样操作。这些点光场是光线方向和局部点特征邻域的函数，允许我们插值光场条件下的训练图像，而没有密集的物体覆盖和视差。我们评估了所提出的方法在大型驾驶场景下的新视图合成，在该场景中，我们合成了现有隐式方法无法表示的现实的未见视图。我们验证了神经点光场使沿着看不见的轨迹预测视频成为可能，以前只有通过显式建模场景才能生成。
● 论文链接：https://arxiv.org/abs/2112.01473
● 作者单位：Algolux、McGill、美国普林斯顿大学

130.【带有里程碑的远景和语言导航】One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones
● 论文摘要：我们研究开发自主智能体的问题，这些智能体可以按照人类的指示来推断和执行一系列的行动来完成潜在的任务。近年来取得了重大进展，特别是在短期任务方面。然而，当涉及到具有扩展的动作序列的长期任务时，代理很容易忽略一些指令，或者在长指令中间卡住，最终导致任务失败。为了解决这一挑战，我们提出了一个模型无关的基于里程碑的任务跟踪器(M-TRACK)来指导智能体并监控其进程。具体来说，我们提出了一个里程碑构建器，它用智能体需要一步步完成的导航和交互里程碑标记指令，以及一个里程碑检查器，系统地检查智能体在当前里程碑中的进展，并决定何时继续下一个里程碑。在具有挑战性的阿尔弗雷德数据集上，我们的M-TRACK与两种竞争性基础模型相比，在看不见的成功率上有显著的45%和70%的相对提高。
● 论文链接：https://arxiv.org/abs/2202.07028
● 作者单位：俄亥俄州立大学、美国陆军研究实验室