We propose a novel cost aggregation network, called Cost Aggregation Transformers (CATs), to find dense correspondences between semantically similar images with additional challenges posed by large intra-class appearance and geometric variations. Cost aggregation is a highly important process in matching tasks, which the matching accuracy depends on the quality of its output. Compared to hand-crafted or CNN-based methods addressing the cost aggregation, in that either lacks robustness to severe deformations or inherit the limitation of CNNs that fail to discriminate incorrect matches due to limited receptive fields, CATs explore global consensus among initial correlation map with the help of some architectural designs that allow us to fully leverage self-attention mechanism. Specifically, we include appearance affinity modeling to aid the cost aggregation process in order to disambiguate the noisy initial correlation maps and propose multi-level aggregation to efficiently capture different semantics from hierarchical feature representations. We then combine with swapping self-attention technique and residual connections not only to enforce consistent matching but also to ease the learning process, which we find that these result in an apparent performance boost. We conduct experiments to demonstrate the effectiveness of the proposed model over the latest methods and provide extensive ablation studies. Project page is available at : https://sunghwanhong.github.io/CATs/.


翻译:我们提议建立一个新的成本汇总网络,称为成本聚合变异器(CATs),以寻找在语言上相似的图像之间密不可分的对应关系,并因大型阶级内外观和几何差异而带来更多的挑战。成本汇总是匹配任务的一个非常重要的过程,匹配的准确性取决于其产出的质量。与处理成本汇总的手工制作或有线电视新闻网方法相比,成本汇总是一个非常重要的过程。与处理成本汇总的手工制作或有线电视网方法相比,对于严重变形缺乏强力,或者继承CNN的局限性,即由于有限的可接受字段而未能区分不正确匹配,因此无法区分不正确匹配。 CATs探索初始关联图之间的全球共识,借助一些建筑设计,使我们能够充分利用自我注意机制。具体地说,我们将外观的近似相似性模型模型用于帮助成本汇总进程,以便消除初始热度相关地图的模糊性,并提议多层次汇总,以便有效地捕捉到与等级特征描述不同的语义。然后,我们与自留技术和留线连接的互换不仅能够执行一致的匹配,而且还方便学习过程,我们发现这些结果明显地促进工作。我们进行实验,以展示最新的绩效。我们进行实验,以展示拟议的模型/光光/光/光/光谱研究。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年8月2日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
20+阅读 · 2021年4月1日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
O-ViT: Orthogonal Vision Transformer
Arxiv
0+阅读 · 2022年2月16日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
9+阅读 · 2018年3月10日
Arxiv
3+阅读 · 2018年2月22日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员