不需要复杂的联合视频文本建模,ActBERT 明显优于现有其他方法。表明 ActBERT 在大规模数据集上的强大学习能力。 结论 ActBERT 以一种自我监督的方式进行联合视频文本建模。该方法直接为全局和局部视觉信息建模,以进行细粒度的视觉和语言关系学习。ActBERT 将信息的三个来源作为输入,并使用了新颖的纠缠编码器进一步增强三个源之间的交互。五个视频文本基准测试的定量结果证明了 ActBERT 的有效性。未来可以通过设计更强大的视频和文本学习模块来提升 ActBERT,并将其应用到视频动作识别和检测中。 参考文献:Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2020.Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017. 本文为机器之心发布,转载请联系本公众号获得授权。 ✄------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com投稿或寻求报道:content@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com