仅凭对话就能猜测人类行为吗?在这项工作中,我们调查了电影中的言语和动作之间的联系。我们注意到,电影剧本描述动作,也包含角色的语言,因此可以用来学习这种相关性,而不需要额外的监督。我们在一千多部电影剧本中训练一个基于BERT的语音动作分类器,从转录的语音片段中预测动作标签。然后,我们将该模型应用于一个大型未标记电影语料库的语音片段(来自288K电影的1.88亿个语音片段)。利用该模型的预测,我们得到了800K以上视频片段的弱动作标签。通过对这些视频剪辑的训练,我们在标准动作识别基准上展示了优越的动作识别性能,而无需使用一个手动标记的动作示例。