【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准,Visual Grounding in Video

2020 年 3 月 13 日 专知


地球上有成千上万种活跃的语言,但只有一个单一的视觉世界。根植于这个视觉世界,有可能弥合所有这些语言之间的鸿沟。我们的目标是使用视觉基准来改进语言之间的非监督词映射。其核心思想是通过学习母语教学视频中未配对的嵌入语,在两种语言之间建立一种共同的视觉表达。考虑到这种共享嵌入,我们证明(i)我们可以在语言之间映射单词,特别是“可视化”单词;(ii)共享嵌入为现有的基于文本的无监督单词翻译技术提供了良好的初始化,为我们提出的混合可视文本映射算法MUVE奠定了基础;(iii)我们的方法通过解决基于文本的方法的缺点来获得更好的性能——它更健壮,处理通用性更低的数据集,并且适用于低资源的语言。我们将这些方法应用于将英语单词翻译成法语、韩语和日语——所有这些都不需要任何平行语料库,而只是通过观看许多人边做边说的视频。



地址:

https://www.zhuanzhi.ai/paper/496e6c0b3fc8b574350cecd720522f07


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“VGV” 就可以获取【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准,Visual Grounding in Video》论文专知下载链接


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员