Language is an interface to the outside world. In order for embodied agents to use it, language must be grounded in other, sensorimotor modalities. While there is an extended literature studying how machines can learn grounded language, the topic of how to learn spatio-temporal linguistic concepts is still largely uncharted. To make progress in this direction, we here introduce a novel spatio-temporal language grounding task where the goal is to learn the meaning of spatio-temporal descriptions of behavioral traces of an embodied agent. This is achieved by training a truth function that predicts if a description matches a given history of observations. The descriptions involve time-extended predicates in past and present tense as well as spatio-temporal references to objects in the scene. To study the role of architectural biases in this task, we train several models including multimodal Transformer architectures; the latter implement different attention computations between words and objects across space and time. We test models on two classes of generalization: 1) generalization to randomly held-out sentences; 2) generalization to grammar primitives. We observe that maintaining object identity in the attention computation of our Transformers is instrumental to achieving good performance on generalization overall, and that summarizing object traces in a single token has little influence on performance. We then discuss how this opens new perspectives for language-guided autonomous embodied agents. We also release our code under open-source license as well as pretrained models and datasets to encourage the wider community to build upon and extend our work in the future.


翻译:语言是外部世界的界面。 语言必须根植于其它感官模式。 虽然有广泛的文献研究机器如何学习有根语言, 但如何学习时空语言概念的话题仍然基本上没有被探索。 为了在这方面取得进展, 我们在这里引入了一个新型的时空语言基础任务, 目标是了解一个有内含代理的行为痕迹的含义。 这是通过培训一个真理函数来实现的, 该功能预测描述是否与特定观察历史相匹配。 描述涉及过去和现在的超时性动态, 以及场景中物体的时空引用。 为了研究建筑偏见在这项任务中的作用, 我们培训了包括多式联运变异器结构在内的若干模型; 后者在空间和时间的文字和物体之间进行不同的关注度计算。 我们测试了两类开源模型:1) 通俗化的句子; 2) 直译为直译本。 我们观察了过去和现在的时空界的延时空的时空状态, 我们观察到, 维护目标的时空特性的轨迹, 正在细化, 细微地测量我们的工具的运行过程的轨迹, 。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
30+阅读 · 2021年6月30日
Arxiv
6+阅读 · 2019年7月11日
VIP会员
Top
微信扫码咨询专知VIP会员