Perceptual organization remains one of the very few established theories on the human visual system. It underpinned many pre-deep seminal works on segmentation and detection, yet research has seen a rapid decline since the preferential shift to learning deep models. Of the limited attempts, most aimed at interpreting complex visual scenes using perceptual organizational rules. This has however been proven to be sub-optimal, since models were unable to effectively capture the visual complexity in real-world imagery. In this paper, we rejuvenate the study of perceptual organization, by advocating two positional changes: (i) we examine purposefully generated synthetic data, instead of complex real imagery, and (ii) we ask machines to synthesize novel perceptually-valid patterns, instead of explaining existing data. Our overall answer lies with the introduction of a novel visual challenge -- the challenge of perceptual question answering (PQA). Upon observing example perceptual question-answer pairs, the goal for PQA is to solve similar questions by generating answers entirely from scratch (see Figure 1). Our first contribution is therefore the first dataset of perceptual question-answer pairs, each generated specifically for a particular Gestalt principle. We then borrow insights from human psychology to design an agent that casts perceptual organization as a self-attention problem, where a proposed grid-to-grid mapping network directly generates answer patterns from scratch. Experiments show our agent to outperform a selection of naive and strong baselines. A human study however indicates that ours uses astronomically more data to learn when compared to an average human, necessitating future research (with or without our dataset).


翻译:视觉组织仍然是人类视觉系统上为数不多的既定理论之一。 它支持了许多关于分解和检测的先入为主的先入为主的理论, 但研究却看到自偏好转向深层模型以来, 快速下降。 在有限的尝试中, 多数尝试都旨在用概念组织规则来解释复杂的视觉场景。 然而, 事实证明, 这一点并不理想, 因为模型无法有效捕捉真实世界图像的视觉复杂性。 在本文中, 我们通过倡导两种定位变化来恢复对概念组织的研究, 即:(一) 我们检查有意生成的合成数据, 而不是复杂的真实图像, 以及(二) 我们要求机器合成新颖的视觉有效模式, 而不是解释现有的数据。 我们的总体答案在于引入新的视觉挑战 -- -- 感知问题回答的挑战。 在观察视觉问答配对时, PQA 的目标是通过完全从抓取答案来解决相似的问题(见图1)。 因此, 我们的第一个贡献是最初的视觉问题解答组合, 而不是复杂的真实图像, 但是我们请机器来综合新的视觉结构,, 每一个具体地展示一个人类的自我分析组织, 。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《机器学习思维导图》,一图掌握机器学习知识要点
专知会员服务
67+阅读 · 2021年1月12日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
专知会员服务
109+阅读 · 2020年3月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
6+阅读 · 2019年6月10日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
3+阅读 · 2017年12月23日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
《机器学习思维导图》,一图掌握机器学习知识要点
专知会员服务
67+阅读 · 2021年1月12日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
专知会员服务
109+阅读 · 2020年3月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
6+阅读 · 2019年6月10日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员