看视频，讲故事，举一反三：详解英特尔弱监督视频密集描述生成模型 - 专知

会员服务 ·

0

看视频，讲故事，举一反三：详解英特尔弱监督视频密集描述生成模型

2017 年 8 月 5 日 机器学习研究会

机器视觉领域的顶级盛会CVPR2017 于近日在夏威夷圆满落幕。来自英特中国研究院的最新成果 “弱监督视频描述生成”引起了业内的广泛关注。利用这种方法，即使不对视频数据进行精确标注，计算机依旧可以针对视频中的不同区域内容，生成丰富的语义信息。

近年来，如何自动生成视频描述引起了研究人员的广泛兴趣。我们希望计算机在看到一段视频的时候，可以根据视频的内容“讲故事”。但是，视频描述模型的训练通常需要大量复杂的并且带有一定主观性的人工标注。在目前的数据集构建过程中，标注人员会在看过一段视频之后，用一句话描述视频的内容。但是，一段视频中通常会发生几个不同的事件，而由于标注人员具有一定主观性，我们既不知道他的描述是针对哪个事件，也不知道他所描述的事件对应不同帧上的哪一个区域。现有方法的局限在于：或者认为一段视频当中只发生了一件事，只需要生成一句描述；或者需要训练数据对视频里的不同事件以及事件对应的不同区域进行详细的标注。这些都给视频的标注工作和结果评估带来了巨大的困难。

图 1 视频密集描述生成模型

针对上述问题，英特尔中国研究院率先提出了弱监督视频密集描述生成的方法，不需要训练数据对视频中的不同事件和对应区域进行分别标注，而仅仅使用标注员对视频的一句话描述，就可以自动产生多角度的视频描述，并且从中挑选出最具代表性的描述语句。这样，计算机就不用人“手把手教”，而是可以做到“举一反三，舌灿莲花”。

我们的模型可以分为三个部分：

首先，在提取视频特征时，我们提出了Lexical-FCN模型，使用弱监督多实例多标签算法（Multi-instance Multi-label learning），构建一个从视频的区域序列到单词的弱映射，从而得到一个包含语义信息的视频特征。

图 2 Lexical-FCN 生成视频区域到单词的弱映射

从图3可以看出，虽然训练数据并没有提供每个单词对应视频帧的位置，模型还是可以学习到视频在不同帧中对单词响应最大的区域。

图 3 视频特征语义响应示意图

其次，在生成视频区域序列时，我们采用子模块最大化方案，根据Lexical-FCN的输出在视频中自动生成具有多样性的区域序列。这种方法可以同时保证区域序列具有一定信息量，在不同帧的区域选择上具有内容一致性，并且可以最大限度的保留序列之间的差异。

转自：英特尔中国

登录查看更多

3

相关内容

视频描述

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【哈工大】基于抽取的高考作文生成

【哈工大】基于抽取的高考作文生成

专知会员服务

37+阅读 · 2020年3月10日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【AAAI2010接受论文】故事实现：将情节事件展开成句子（Story Realization: Expanding Plot Events into Sentences）

【AAAI2010接受论文】故事实现：将情节事件展开成句子（Story Realization: Expanding Plot Events into Sentences）

专知会员服务

8+阅读 · 2019年11月15日

已删除

将门创投

11+阅读 · 2019年8月13日

一种行人重识别监督之下的纹理生成网络

一种行人重识别监督之下的纹理生成网络

人工智能前沿讲习班

4+阅读 · 2019年6月30日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

通过视频着色进行自监督跟踪

通过视频着色进行自监督跟踪

谷歌开发者

3+阅读 · 2018年7月11日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

基于对偶学习的跨领域图片描述生成

基于对偶学习的跨领域图片描述生成

PaperWeekly

6+阅读 · 2017年11月7日

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

AI科技评论

13+阅读 · 2017年11月4日

学界 | UC伯克利提出新型视觉描述系统，物体描述无需大量样本

学界 | UC伯克利提出新型视觉描述系统，物体描述无需大量样本

机器之心

3+阅读 · 2017年8月13日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Joint Monocular 3D Vehicle Detection and Tracking

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

End-to-end learning of keypoint detector and descriptor for pose invariant 3D matching

Arxiv

8+阅读 · 2018年5月9日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos

Arxiv

4+阅读 · 2018年4月30日

ClickBAIT-v2: Training an Object Detector in Real-Time

Arxiv

7+阅读 · 2018年3月27日

Towards Human-Machine Cooperation: Self-supervised Sample Mining for Object Detection

Arxiv

6+阅读 · 2018年3月27日

Learning Region Features for Object Detection

Arxiv

4+阅读 · 2018年3月19日

Learning Hierarchical Features for Visual Object Tracking with Recursive Neural Networks

Arxiv

13+阅读 · 2018年1月6日

2D-3D Pose Consistency-based Conditional Random Fields for 3D Human Pose Estimation

Arxiv

3+阅读 · 2017年12月28日

VIP会员

相关主题

英特尔 (Intel)

相关VIP内容

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【哈工大】基于抽取的高考作文生成

【哈工大】基于抽取的高考作文生成

专知会员服务

37+阅读 · 2020年3月10日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【AAAI2010接受论文】故事实现：将情节事件展开成句子（Story Realization: Expanding Plot Events into Sentences）

【AAAI2010接受论文】故事实现：将情节事件展开成句子（Story Realization: Expanding Plot Events into Sentences）

专知会员服务

8+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

已删除

将门创投

11+阅读 · 2019年8月13日

一种行人重识别监督之下的纹理生成网络

一种行人重识别监督之下的纹理生成网络

人工智能前沿讲习班

4+阅读 · 2019年6月30日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

通过视频着色进行自监督跟踪

通过视频着色进行自监督跟踪

谷歌开发者

3+阅读 · 2018年7月11日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

基于对偶学习的跨领域图片描述生成

基于对偶学习的跨领域图片描述生成

PaperWeekly

6+阅读 · 2017年11月7日

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

AI科技评论

13+阅读 · 2017年11月4日

学界 | UC伯克利提出新型视觉描述系统，物体描述无需大量样本

学界 | UC伯克利提出新型视觉描述系统，物体描述无需大量样本

机器之心

3+阅读 · 2017年8月13日

相关论文

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Joint Monocular 3D Vehicle Detection and Tracking

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

End-to-end learning of keypoint detector and descriptor for pose invariant 3D matching

Arxiv

8+阅读 · 2018年5月9日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos

Arxiv

4+阅读 · 2018年4月30日

ClickBAIT-v2: Training an Object Detector in Real-Time

Arxiv

7+阅读 · 2018年3月27日

Towards Human-Machine Cooperation: Self-supervised Sample Mining for Object Detection

Arxiv

6+阅读 · 2018年3月27日

Learning Region Features for Object Detection

Arxiv

4+阅读 · 2018年3月19日

Learning Hierarchical Features for Visual Object Tracking with Recursive Neural Networks

Arxiv

13+阅读 · 2018年1月6日

2D-3D Pose Consistency-based Conditional Random Fields for 3D Human Pose Estimation

Arxiv

3+阅读 · 2017年12月28日

大家都在搜

久别重逢话双塔

CMU博士论文

无人机集群

软件无线电

国防科技创新

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员