【ECCV2020-Google】多模态Transformer视频检索,Multi-modal Transformer

2020 年 7 月 22 日 专知


检索与自然语言查询相关的视频内容对有效处理互联网规模的数据集起着至关重要的作用。大多数现有的字幕-视频检索方法都没有充分利用视频中的跨模态线索。此外,他们聚合每帧的视觉特征与有限的或没有时间信息。在本文中,我们提出了一种多模态Transformer联合编码视频中不同的模态,使每一个模态关注其他模态。transformer架构还被用于对时态信息进行编码和建模。在自然语言方面,我们研究了联合优化嵌入在多模态转换器中的语言的最佳实践。这个新的框架允许我们建立最先进的视频检索结果在三个数据集。更多详情请访问http://thoth.inrialpes.fr/research/MMT。

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MTVR” 可以获取《【ECCV2020-Google】多模态Transformer视频检索,Multi-modal Transformer》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
6

相关内容

【ECCV2020】基于场景图分解的自然语言描述生成
专知会员服务
23+阅读 · 2020年9月3日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
102+阅读 · 2020年7月22日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
Pytorch多模态框架MMF
专知
49+阅读 · 2020年6月20日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
6+阅读 · 2018年5月22日
VIP会员
Top
微信扫码咨询专知VIP会员