主题: Visual Grounding in Video for Unsupervised Word Translation

摘要:

地球上有成千上万种活跃的语言,但只有一个单一的视觉世界。根植于这个视觉世界,有可能弥合所有这些语言之间的鸿沟。我们的目标是使用视觉基础来改进语言之间的非监督词映射。其核心思想是通过学习母语教学视频中未配对的嵌入语,在两种语言之间建立一种共同的视觉表达。考虑到这种共享嵌入,我们证明(i)我们可以在语言之间映射单词,特别是“可视化”单词;(ii)共享嵌入为现有的基于文本的无监督单词翻译技术提供了良好的初始化,为我们提出的混合可视文本映射算法MUVE奠定了基础;(iii)我们的方法通过解决基于文本的方法的缺点来获得更好的性能——它鲁棒性更强,处理通用性更低的数据集,并且适用于低资源的语言。我们将这些方法应用于将英语单词翻译成法语、韩语和日语——所有这些都不需要任何平行语料库,而只是通过观看许多人边做边说的视频。

成为VIP会员查看完整内容
11

相关内容

机器视觉通常用于分析图像,并生成一个对被生成图像物体或场景的描述,这些描述最终用于辅助或决定机器人控制决策。 一门基于计算机图像识别和分析的技术。主要用于自动检测,流程控制或机器人引导等。
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
31+阅读 · 2020年3月3日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
18+阅读 · 2019年8月30日
通过视频着色进行自监督跟踪
谷歌开发者
3+阅读 · 2018年7月11日
没有数据也能翻译?一文读懂「无监督」机器翻译
人工智能学家
3+阅读 · 2018年1月7日
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
8+阅读 · 2018年7月12日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关VIP内容
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
31+阅读 · 2020年3月3日
微信扫码咨询专知VIP会员