检索与自然语言查询相关的视频内容对有效处理互联网规模的数据集起着至关重要的作用。大多数现有的字幕-视频检索方法都没有充分利用视频中的跨模态线索。此外,他们聚合每帧的视觉特征与有限的或没有时间信息。在本文中,我们提出了一种多模态Transformer联合编码视频中不同的模态,使每一个模态关注其他模态。transformer架构还被用于对时态信息进行编码和建模。在自然语言方面,我们研究了联合优化嵌入在多模态转换器中的语言的最佳实践。这个新的框架允许我们建立最先进的视频检索结果在三个数据集。更多详情请访问http://thoth.inrialpes.fr/research/MMT。

成为VIP会员查看完整内容
101

相关内容

专知会员服务
135+阅读 · 2020年9月6日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
AAAI 2020 | 樊峻菘:弱监督语义分割(视频解读)
AI科技评论
11+阅读 · 2020年1月29日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
干货 | 解密美图大规模多媒体数据检索技术DeepHash
AI科技评论
4+阅读 · 2018年7月12日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关VIP内容
相关资讯
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
AAAI 2020 | 樊峻菘:弱监督语义分割(视频解读)
AI科技评论
11+阅读 · 2020年1月29日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
干货 | 解密美图大规模多媒体数据检索技术DeepHash
AI科技评论
4+阅读 · 2018年7月12日
微信扫码咨询专知VIP会员