Predicting future sensory states is crucial for learning agents such as robots, drones, and autonomous vehicles. In this paper, we couple multiple sensory modalities with exploratory actions and propose a predictive neural network architecture to address this problem. Most existing approaches rely on large, manually annotated datasets, or only use visual data as a single modality. In contrast, the unsupervised method presented here uses multi-modal perceptions for predicting future visual frames. As a result, the proposed model is more comprehensive and can better capture the spatio-temporal dynamics of the environment, leading to more accurate visual frame prediction. The other novelty of our framework is the use of sub-networks dedicated to anticipating future haptic, audio, and tactile signals. The framework was tested and validated with a dataset containing 4 sensory modalities (vision, haptic, audio, and tactile) on a humanoid robot performing 9 behaviors multiple times on a large set of objects. While the visual information is the dominant modality, utilizing the additional non-visual modalities improves the accuracy of predictions.


翻译:预测未来感官状态对于机器人、无人驾驶飞机和自主飞行器等学习剂至关重要。 在本文中, 我们将多种感知模式与探索行动相结合, 并提出一个预测性神经网络架构来解决这个问题。 大多数现有方法都依赖于大型、 手动附加说明的数据集, 或仅将视觉数据作为单一模式使用。 相反, 这里所介绍的未经监督的方法使用多种模式的认知来预测未来视觉框架。 因此, 拟议的模型更加全面, 能够更好地捕捉环境的时空动态, 导致更准确的视觉框架预测。 我们框架的另一个新颖之处是使用子网络来专门预测未来的机能性、 音频和触摸信号。 框架经过测试和验证, 由包含4种感知模式( 视觉、 机能、 音频和触摸器) 的数据集对一个在大型物体组上多次执行9项行为的人类机器人进行了测试和验证。 视觉信息是主要模式, 使用额外的非视觉模式, 提高预测的准确性。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年6月12日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
46+阅读 · 2020年1月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员