「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会(SMP)联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可。
针对以上问题,本文引入了一个新的框架用于自动生成视频人物摘要,并通过文本与视觉的模态融合来增强摘要的质量。该任务可以定义为:给定包含多模态信息的原始视频以及目标人物,目的是从原始视频中自动抽取出包含目标人物的摘要视频。
接下来介绍本文中视频人物摘要框架的主要结构,如图 1 所示,本摘要框架由人物检测模块,人物重识别模块和关键帧聚合模块组成:
▲ 图1. 视频人物摘要的整体框架
人物检测模块(Person Detection)的主要作用是无差别地检测出视频中出现的所有人物,这部分主要是对 R-cnn 系列的 detector 进行微调——我们使用基于 ResNet-50 初始化的 Cascade R-CNN 构建一个简单的二分类器(是否包含人),从而逐帧地预测人物出现的区域(Regions of Interest, RoI),人物检测模块可以看做是对视频流数据所进行的预处理。
人物重识别模块(Person Re-identification)的主要作用是在人物检测模块的基础上,判断每一个候选的人物出现区域是否包含了目标人物c。具体来说,模型的输入为一对 <目标查询 q,候选 g>,我们先是对候选 g 包含的人物区域以及附近的文本信息进行特征抽取,得到候选 g 的多模态特征,继而参考 Y.Shen et al. (2018) 中的张量积匹配方法,以度量学习的思路,计算候选 g 与目标查询 q 之间的相似度。模型的输出为一个二元数组,判断目标对象和候选对象是否属于同一个人物,[1,0] 代表是,[0,1] 代表否。
▲ 图2. 多模态重识别模型
在视觉与文本特征的融合过程中,一个重要的问题就是文本中普遍存在的高噪声会对特征融合产生负面影响。针对文本信息如何降噪的问题,本文结合视觉 context,先是通过注意力机制进行 document-level 的降噪。
如图 2 所示,我们认为相近时间内的文本更可能表达相似的语义和构成对人物的相似的描述,所以我们把时间窗口内的文本划分为 k 个段落的集合,并通过 Char-LSTM 或 Neural Topic Model 得到初始的文本特征矩阵 ,文本特征矩阵的每一行都对应一个段落内的文本的联合表征向量,其中 r 表示文本的联合表征向量的维度。同时,不同段落的文本描述与人物的相关性可能各有不同,所以我们通过一个注意力机制来计算每个段落的文本向量 的重要性得分 :
其中 Vis 表示模型主干的顶层特征图通过全局池化和全连接层后压缩得到的语义向量,之所以选择使用顶层的特征图作语义向量的映射,是因为在卷机网络中,越顶层特征图往往越能表达越抽象的语义信息。我们根据重要性更新每个段落的语义向量:
▲ 图3:文本源选择机制
▲ 表1:人物搜索(Person Search)效果对比
▲ 图4. 文本描述为人物身份识别提供有益线
▲ 表2. 高权重文本信息的主题分布
Peilun Zhou, Tong Xu, Zhizhuo Yin, Dong Liu, Enhong Chen, Guangyi Lv, Changliang Li, Character-oriented Video Summarization with Visual and Textual Cues, IEEE Transactions on Multimedia, 2019
关于作者
周培伦,中国科学技术大学硕士研究生。 于 2017 年获得中国科学技术大学学士学位。目前于安徽省大数据分析与应用重点实验室攻读硕士学位。主要研究方向包括多模态学习,计算机视觉与自然语言处理。
徐童,中国科学技术大学副研究员。 于 2016 年获得中国科学技术大学博士学位。现为中国中文信息学会青年工作委员会委员、中文信息学会社会媒体处理专委会通讯委员。主要研究方向为社交网络与社交媒体分析,近年来,在相关领域国际重要期刊及会议发表论文近 50 篇。
尹智卓,中国科学技术大学本科生。 于 2019 年获得中国科学技术大学学士学位。主要兴趣方向是计算机视觉与高性能计算。
刘东,中国科学技术大学副教授。 于 2004 年和 2009 年分别获得中国科学技术大学学士和博士学位。以作者身份发表国际会议与期刊论文逾百篇,研究内容主要包括图像与视频编码,多媒体信号处理和多媒体数据挖掘等。曾获 2009 年 TCSVT 最佳论文奖。
陈恩红,中国科学技术大学教授、大数据学院执行院长。 主要研究内容包括数据挖掘,机器学习,社交网络分析与推荐系统,在相关领域发表国际会议与期刊论文两百余篇。包括Nature Communications, IEEE/ACM Transactions, KDD, NIPS, IJCAI and AAAI 等。担任 KDD, ICDM, 和 SDM 等国际学术会议程序委员会委员。曾获 KDD’2008最佳应用论文奖,ICDM’2011 最佳研究论文奖和 SDM’2015 最佳论文奖。
吕广奕,中国科学技术大学博士。 于2013年和2019年分别获得中国科学技术大学学士和博士学位。研究内容主要包括深度学习,自然语言处理和推荐系统。
李长亮,金山公司AI Lab负责人。 于2015年获得中国科学研究院自动化所博士学位。研究内容主要包括深度学习,自然语言处理和数据挖掘。曾在EMNLP, IJCNN, PAKDD, NLPCC等顶级国际会议上发表多篇论文。
主办单位
点击以下标题查看更多往期内容:
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文