【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video - 专知

会员服务 ·

0

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

2020 年 3 月 13 日 专知

地球上有成千上万种活跃的语言，但只有一个单一的视觉世界。根植于这个视觉世界，有可能弥合所有这些语言之间的鸿沟。我们的目标是使用视觉基准来改进语言之间的非监督词映射。其核心思想是通过学习母语教学视频中未配对的嵌入语，在两种语言之间建立一种共同的视觉表达。考虑到这种共享嵌入，我们证明(i)我们可以在语言之间映射单词，特别是“可视化”单词;(ii)共享嵌入为现有的基于文本的无监督单词翻译技术提供了良好的初始化，为我们提出的混合可视文本映射算法MUVE奠定了基础;(iii)我们的方法通过解决基于文本的方法的缺点来获得更好的性能——它更健壮，处理通用性更低的数据集，并且适用于低资源的语言。我们将这些方法应用于将英语单词翻译成法语、韩语和日语——所有这些都不需要任何平行语料库，而只是通过观看许多人边做边说的视频。

地址：

https://www.zhuanzhi.ai/paper/496e6c0b3fc8b574350cecd720522f07

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VGV” 就可以获取《【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video》论文专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

视觉基准

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

51+阅读 · 2020年5月26日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

108+阅读 · 2020年2月19日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知

26+阅读 · 2020年4月3日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

专知

6+阅读 · 2018年8月23日

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Arxiv

6+阅读 · 2020年4月4日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

Visual Grounding in Video for Unsupervised Word Translation

Visual Grounding in Video for Unsupervised Word Translation

Arxiv

7+阅读 · 2020年3月11日

Exploring the Semantics for Visual Relationship Detection

Arxiv

3+阅读 · 2019年4月3日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Fine-grained Video Classification and Captioning

Arxiv

7+阅读 · 2018年4月24日

Discriminative Cross-View Binary Representation Learning

Arxiv

9+阅读 · 2018年4月4日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Predicting Visual Features from Text for Image and Video Caption Retrieval

Arxiv

5+阅读 · 2018年1月29日

VIP会员

相关主题

相关VIP内容

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

51+阅读 · 2020年5月26日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

108+阅读 · 2020年2月19日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

中文版 | 美陆军C5ISR中心以反无人机技术支援边境行动

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

中文版 | 美空军探索空射“战斗机无人机”式协同作战飞机

中文版 | 俄乌战争最新动态（5月9日）

相关资讯

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知

26+阅读 · 2020年4月3日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

专知

6+阅读 · 2018年8月23日

相关论文

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Arxiv

6+阅读 · 2020年4月4日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

Visual Grounding in Video for Unsupervised Word Translation

Visual Grounding in Video for Unsupervised Word Translation

Arxiv

7+阅读 · 2020年3月11日

Exploring the Semantics for Visual Relationship Detection

Arxiv

3+阅读 · 2019年4月3日

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning

Arxiv

8+阅读 · 2019年1月7日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Fine-grained Video Classification and Captioning

Arxiv

7+阅读 · 2018年4月24日

Discriminative Cross-View Binary Representation Learning

Arxiv

9+阅读 · 2018年4月4日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Predicting Visual Features from Text for Image and Video Caption Retrieval

Arxiv

5+阅读 · 2018年1月29日

大家都在搜

语言模型推理

无人机系统

OpenKG开源系列

微信扫码咨询专知VIP会员