仅凭对话就能猜测人类行为吗?在这项工作中,我们调查了电影中的言语和动作之间的联系。我们注意到,电影剧本描述动作,也包含角色的语言,因此可以用来学习这种相关性,而不需要额外的监督。我们在一千多部电影剧本中训练一个基于BERT的语音动作分类器,从转录的语音片段中预测动作标签。然后,我们将该模型应用于一个大型未标记电影语料库的语音片段(来自288K电影的1.88亿个语音片段)。利用该模型的预测,我们得到了800K以上视频片段的弱动作标签。通过对这些视频剪辑的训练,我们在标准动作识别基准上展示了优越的动作识别性能,而无需使用一个手动标记的动作示例。

成为VIP会员查看完整内容
20

相关内容

CVPR is the premier annual computer vision event comprising the main conference and several co-located workshops and short courses. With its high quality and low cost, it provides an exceptional value for students, academics and industry researchers. CVPR 2020 will take place at The Washington State Convention Center in Seattle, WA, from June 16 to June 20, 2020. http://cvpr2020.thecvf.com/
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
42+阅读 · 2020年4月19日
BERT模型进军视频领域,看你和面就知会做蛋糕
机器之心
10+阅读 · 2019年9月20日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
5+阅读 · 2019年2月7日
VIP会员
相关VIP内容
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
42+阅读 · 2020年4月19日
微信扫码咨询专知VIP会员