Sentence representation models trained only on language could potentially suffer from the grounding problem. Recent work has shown promising results in improving the qualities of sentence representations by jointly training them with associated image features. However, the grounding capability is limited due to distant connection between input sentences and image features by the design of the architecture. In order to further close the gap, we propose applying self-attention mechanism to the sentence encoder to deepen the grounding effect. Our results on transfer tasks show that self-attentive encoders are better for visual grounding, as they exploit specific words with strong visual associations.


翻译:仅在语言方面受过培训的判刑代表模式可能会受到地面问题的影响。最近的工作表明,通过用相关的图像特征共同培训,在提高服刑表现质量方面取得了可喜的成果。然而,由于输入句子与建筑设计图象特征之间的遥远联系,地面能力受到限制。为了进一步缩小差距,我们建议对句子编码器采用自我注意机制,以深化地面效应。我们的转移任务结果表明,自我注意的编码器对视觉定位更好,因为它们利用了与强大的视觉协会的特殊语言。

8
下载
关闭预览

相关内容

专知会员服务
53+阅读 · 2019年12月22日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
9+阅读 · 2018年10月24日
Arxiv
5+阅读 · 2018年6月4日
VIP会员
Top
微信扫码咨询专知VIP会员