【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督,Cross-modal Supervision

2020 年 3 月 31 日 专知


仅凭对话就能猜测人类行为吗?在这项工作中,我们调查了电影中的言语和动作之间的联系。我们注意到,电影剧本描述动作,也包含角色的语言,因此可以用来学习这种相关性,而不需要额外的监督。我们在一千多部电影剧本中训练一个基于BERT的语音动作分类器,从转录的语音片段中预测动作标签。然后,我们将该模型应用于一个大型未标记电影语料库的语音片段(来自288K电影的1.88亿个语音片段)。利用该模型的预测,我们得到了800K以上视频片段的弱动作标签。通过对这些视频剪辑的训练,我们在标准动作识别基准上展示了优越的动作识别性能,而无需使用一个手动标记的动作示例。


https://www.zhuanzhi.ai/paper/24746000f381795ac9b9e191fae29dc0


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CSAR” 就可以获取【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督,Cross-modal Supervision》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
9

相关内容

自然语言处理(NLP)前沿进展报告(PPT下载)
Arxiv
4+阅读 · 2018年6月21日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2018年3月21日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员