As humans, we understand events in the visual world contextually, performing multimodal reasoning across time to make inferences about the past, present, and future. We introduce MERLOT, a model that learns multimodal script knowledge by watching millions of YouTube videos with transcribed speech -- in an entirely label-free, self-supervised manner. By pretraining with a mix of both frame-level (spatial) and video-level (temporal) objectives, our model not only learns to match images to temporally corresponding words, but also to contextualize what is happening globally over time. As a result, MERLOT exhibits strong out-of-the-box representations of temporal commonsense, and achieves state-of-the-art performance on 12 different video QA datasets when finetuned. It also transfers well to the world of static images, allowing models to reason about the dynamic context behind visual scenes. On Visual Commonsense Reasoning, MERLOT answers questions correctly with 80.6% accuracy, outperforming state-of-the-art models of similar size by over 3%, even those that make heavy use of auxiliary supervised data (like object bounding boxes). Ablation analyses demonstrate the complementary importance of: 1) training on videos versus static images; 2) scaling the magnitude and diversity of the pretraining video corpus; and 3) using diverse objectives that encourage full-stack multimodal reasoning, from the recognition to cognition level.


翻译:作为人类,我们理解视觉世界中的各种事件,在时间上进行多式联运推理,以推断过去、现在和未来。我们引入了MERLOT,这是一种通过完全无标签、自我监督的方式,通过观看数以百万计的YouTube视频,以无标签、完全不受自我监督的方式通过转录的演讲来学习多式文字知识的模式。通过使用框架级(空间)和视频级(时空)目标相结合的预演,我们的模型不仅学会将图像与时间对应的文字相匹配,而且将全球正在发生的事情背景化。结果,MERLOT展示了时间常识的强大外格表现,在12个不同的视频QA数据集上实现了最新的艺术表现。它还将静态图像传送到世界,允许模型在视觉场后对动态背景进行理解。在视觉常识学理性学上,MERLOT回答的问题正确无误,80.6%的准确度、超过3 % 水平的近于类似目标的状态模型。结果,MERLOT展示了3级以上的超标点,甚至超标级的模型,在12个不同的视频Q数据集数据集数据集中,并展示了该级前的升级分析。

1
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年6月15日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
8+阅读 · 2021年3月2日
已删除
Arxiv
32+阅读 · 2020年3月23日
Neural Module Networks for Reasoning over Text
Arxiv
9+阅读 · 2019年12月10日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年6月15日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员