看视频,讲故事,举一反三:详解英特尔弱监督视频密集描述生成模型

2017 年 8 月 5 日 机器学习研究会

机器视觉领域的顶级盛会CVPR2017 于近日在夏威夷圆满落幕。来自英特中国研究院的最新成果 “弱监督视频描述生成”引起了业内的广泛关注。 利用这种方法,即使不对视频数据进行精确标注,计算机依旧可以针对视频中的不同区域内容,生成丰富的语义信息。

 

 

近年来,如何自动生成视频描述引起了研究人员的广泛兴趣。我们希望计算机在看到一段视频的时候,可以根据视频的内容“讲故事”。但是,视频描述模型的训练通常需要大量复杂的并且带有一定主观性的人工标注 。在目前的数据集构建过程中,标注人员会在看过一段视频之后,用一句话描述视频的内容。但是,一段视频中通常会发生几个不同的事件,而由于标注人员具有一定主观性,我们既不知道他的描述是针对哪个事件,也不知道他所描述的事件对应不同帧上的哪一个区域。现有方法的局限在于:或者认为一段视频当中只发生了一件事,只需要生成一句描述;或者需要训练数据对视频里的不同事件以及事件对应的不同区域进行详细的标注。这些都给视频的标注工作和结果评估带来了巨大的困难。

 

 

图 1 视频密集描述生成模型

 

针对上述问题,英特尔中国研究院率先提出了弱监督视频密集描述生成的方法,不需要训练数据对视频中的不同事件和对应区域进行分别标注,而仅仅使用标注员对视频的一句话描述,就可以自动产生多角度的视频描述,并且从中挑选出最具代表性的描述语句。这样,计算机就不用人“手把手教”,而是可以做到“举一反三,舌灿莲花”。

 

我们的模型可以分为三个部分:

 

首先,在提取视频特征时,我们提出了Lexical-FCN模型,使用弱监督多实例多标签算法 (Multi-instance Multi-label learning),构建一个从视频的区域序列到单词的弱映射,从而得到一个包含语义信息的视频特征。

 

 

   图 2 Lexical-FCN 生成视频区域到单词的弱映射

 

从图3可以看出,虽然训练数据并没有提供每个单词对应视频帧的位置,模型还是可以学习到视频在不同帧中对单词响应最大的区域。

 

 

图 3 视频特征语义响应示意图

 

其次,在生成视频区域序列时,我们采用子模块最大化方案,根据Lexical-FCN的输出在视频中自动生成具有多样性的区域序列。这种方法可以同时保证区域序列具有一定信息量,在不同帧的区域选择上具有内容一致性,并且可以最大限度的保留序列之间的差异。


转自:英特尔中国

登录查看更多
3

相关内容

【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
60+阅读 · 2020年6月25日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
已删除
将门创投
11+阅读 · 2019年8月13日
一种行人重识别监督之下的纹理生成网络
人工智能前沿讲习班
4+阅读 · 2019年6月30日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
通过视频着色进行自监督跟踪
谷歌开发者
3+阅读 · 2018年7月11日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
基于对偶学习的跨领域图片描述生成
PaperWeekly
6+阅读 · 2017年11月7日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关资讯
已删除
将门创投
11+阅读 · 2019年8月13日
一种行人重识别监督之下的纹理生成网络
人工智能前沿讲习班
4+阅读 · 2019年6月30日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
通过视频着色进行自监督跟踪
谷歌开发者
3+阅读 · 2018年7月11日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
基于对偶学习的跨领域图片描述生成
PaperWeekly
6+阅读 · 2017年11月7日
Top
微信扫码咨询专知VIP会员