【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

2020 年 5 月 14 日 专知

https://arxiv.org/pdf/2005.06035.pdf


本文处理学习和推理语言和视觉数据的相关下游任务的挑战,如视觉问题回答(VQA)和自然语言的视觉推理(NLVR)。我们设计了一个新颖的跨模态关联模块,用端到端框架在目标任务的监督下学习各种输入模态组件之间的关联表示,这比仅仅重塑原始表示空间更易于推广到未观测的数据。除了对文本实体和视觉实体之间的相关性进行建模外,我们还对文本中的实体关系和图像中的对象关系之间的高阶相关性进行建模。我们提出的方法使用公共基准,在两个不同的语言和视觉任务上显示出具有竞争力的性能,并改进了最新发布的结果。NLVR任务学习的输入空间对齐及其相关表示提高了VQA任务的训练效率。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CMR” 可以获取语言和视觉推理的交叉模态关联》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

【ACL2020】多模态信息抽取,365页ppt
专知会员服务
139+阅读 · 2020年7月6日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
Arxiv
3+阅读 · 2019年9月5日
Arxiv
4+阅读 · 2018年5月14日
VIP会员
Top
微信扫码咨询专知VIP会员