The ability to find correspondences in visual data is the essence of most computer vision tasks. But what are the right correspondences? The task of visual correspondence is well defined for two different images of same object instance. In case of two images of objects belonging to same category, visual correspondence is reasonably well-defined in most cases. But what about correspondence between two objects of completely different category -- e.g., a shoe and a bottle? Does there exist any correspondence? Inspired by humans' ability to: (a) generalize beyond semantic categories and; (b) infer functional affordances, we introduce the problem of functional correspondences in this paper. Given images of two objects, we ask a simple question: what is the set of correspondences between these two images for a given task? For example, what are the correspondences between a bottle and shoe for the task of pounding or the task of pouring. We introduce a new dataset: FunKPoint that has ground truth correspondences for 10 tasks and 20 object categories. We also introduce a modular task-driven representation for attacking this problem and demonstrate that our learned representation is effective for this task. But most importantly, because our supervision signal is not bound by semantics, we show that our learned representation can generalize better on few-shot classification problem. We hope this paper will inspire our community to think beyond semantics and focus more on cross-category generalization and learning representations for robotics tasks.


翻译:在视觉数据中找到通信的能力是大多数计算机视觉任务的实质。 但正确的对应是什么? 视觉通信的任务是什么样的? 视觉通信的任务是对同一对象实例的两个不同图像有明确的定义。 在属于同一类别对象的两个图像中,视觉通信在多数情况下是合理定义的。 但是,对于两个完全不同类别对象 -- -- 例如鞋和瓶子 -- -- 之间的通信来说,视觉通信是什么样的? 是否有任何通信? 受人能力所启发的: (a) 超越语义类和(b) 推断功能性负担能力, 我们在这个文件中引入功能性通信问题。 鉴于两个对象的图像, 我们问一个简单的问题: 这两个图像之间有哪些属于同一类别, 视觉通信在多数情况下是相当的。 例如, 瓶和鞋之间的通信是什么样的通信, 用于打击任务或倾注任务。 我们引入一个新的数据集: 调控点有10项任务和20种对象类的地面对真理通信的定位。 我们还引入一个模块化任务驱动的演示来解决这一问题, 并且证明我们所学到的表达方式对于这项任务来说是有效的。 但是最重要的是, 我们的信号是学习了我们一般的图像, 我们学习了对面的演示 的演示会 将多少 。

0
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2021年8月12日
Python图像处理,366页pdf,Image Operators Image Processing in Python
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
61+阅读 · 2020年2月17日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
0+阅读 · 2021年10月25日
Arxiv
0+阅读 · 2021年10月24日
Arxiv
0+阅读 · 2021年10月22日
VIP会员
相关资讯
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员