Human visual recognition of activities or external agents involves an interplay between high-level plan recognition and low-level perception. Given that, a natural question to ask is: can low-level perception be improved by high-level plan recognition? We formulate the problem of leveraging recognized plans to generate better top-down attention maps \cite{gazzaniga2009,baluch2011} to improve the perception performance. We call these top-down attention maps specifically as plan-recognition-driven attention maps. To address this problem, we introduce the Pixel Dynamics Network. Pixel Dynamics Network serves as an observation model, which predicts next states of object points at each pixel location given observation of pixels and pixel-level action feature. This is like internally learning a pixel-level dynamics model. Pixel Dynamics Network is a kind of Convolutional Neural Network (ConvNet), with specially-designed architecture. Therefore, Pixel Dynamics Network could take the advantage of parallel computation of ConvNets, while learning the pixel-level dynamics model. We further prove the equivalence between Pixel Dynamics Network as an observation model, and the belief update in partially observable Markov decision process (POMDP) framework. We evaluate our Pixel Dynamics Network in event recognition tasks. We build an event recognition system, ER-PRN, which takes Pixel Dynamics Network as a subroutine, to recognize events based on observations augmented by plan-recognition-driven attention.


翻译:人类对活动或外部媒介的视觉认知涉及高层次计划识别和低层次感知之间的相互作用。 鉴于这个自然的问题, 自然要问的问题是: 高层次计划识别能改善低层次感知吗? 我们提出如何利用公认的计划来生成更好的自上而下注意力映射 \ cite{gazzarniga2009,baluch2011} 来改善感知性能。 我们将这些自上而下注意力映射图称为具体作为计划认知驱动的注意力映射图。 为了解决这个问题, 我们引入了像素动态网络。 像素动态网络是一个观测模型, 我们进一步证明了Pix Riologle定位定位定位站位置的下一个目标点状态, 我们进一步证明了 Pixel Dirview 定位网络的等同性, 我们的动态动态动态网络是一个动态认知模型, 我们的定位网络是一个动态动态认知框架, 我们的动态定位网络是一个动态动态认知框架, 我们的动态动态识别网络是一个部分的动态动态动态识别任务。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关资讯
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Top
微信扫码咨询专知VIP会员