作者丨王磊
单位丨汽车之家视频理解工程师
研究方向丨深度学习、计算机视觉
本文介绍了汽车之家团队 ICCV 2019 一篇关于视频理解论文相关的工作。针对视频多标签分类的问题,论文提出了将视频多标签之间相关性特征加入到网络之中,结果证明该方法可以显著的提高视频多标签分类效果。本文作者为该论文原作者。
随着短视频应用的不断普及,基于视频内容的理解与分析也成为计算机视觉领域一个热门的方向。2017 年,Google 开源了其大规模视频内容数据集 Youtube-8M,鼓励研究者利用深度学习技术对视频内容进行理解分析。
最新的 Youtube-8M 数据集包括两部分,第一部分为 video-level(视频层级)的标注,该部分总计包含 610 万个已标注的视频,3862 个分类,平均每个视频标注了 3 个标签;第二部分为 segment-level(视频片段标注),该部分挑选了 1000 个分类,对视频中随机抽取的 5 秒片段进行标注,该部分总共有 23.7 万个标注数据;值得注意的是,segment-level 的数据标注仅标注了抽取的 5 秒视频片段是否属于某一特定标签,并没有标识该视频片段的所有标签。
近年来,视频理解成为计算机视觉领域的一个热点方向。相比较图像内容,视频内容更为复杂多样,因此对于视频内容而言,单个标签很难完整的表征视频的内容,对于视频内容理解分析大多为多标签的分类问题。
在视频的多标签中,标签之间会有一定的相关性并成对出现;如图一所示(标签从 Youtube8M 数据集中选取),当宝马(BMW)、发动机(Engine)的标签出现时,汽车(Car)的标签大概率也会出现;但是当汽车的标签出现时,宝马标签出现的可能性则非常低。
▲ 图1. 标签有向图示例
通过对 Youtube8M 数据集的部分标签数据进行分析,可以得到一个图来表征各个标签之间的关系,如图二所示。
▲ 图2. 标签相关性Weighted-Graph表示
图二中每个不同颜色的节点代表一个独立的标签类别,不同节点之间的连线代表着两个节点之间是否有相关性,节点之间连线上的数值则代表了不同的标签之间联系的紧密程度,数值越大,则联系越高;没有联系的节点之间则不会有线连接。通过对视频的多标签之间的相关性进行建模分析,并通过图神经网络将标签类别映射为对应类别分类器加入到最终的视频多标签分类网络之中,可以提升整体模型的学习分类能力。
如何有效获取目标标签之间的相关性?如何利用这些标签相关性提升网络的特征学习以及分类表现?这是视频多标签分类的两个重要问题。由于图的特点可以很好的表征各个标签之间的相互依赖性,因此我们选择基于图神经网络进行建模学习,并用于最终视频分类网络中。一个图神经网络的基本结构如图三所示:
▲ 图3. 图卷积网络示例
Input输入有两个,一个为特征描述矩阵 H(n*d),另一个为相关系数矩阵 A(n*n),其中 n 为节点个数,即数据集标签的个数,d 为特征的维度,特征维度由根据采用的 CNN 结构决定。
相关系数矩阵是 GCN 网络中表征标签关系的一个矩阵,因此如何构建相关系数矩阵 A 就成了 GCN 模型中一个非常重要的问题。由于 Youtube8M 数据集有超过 600 万的 video-level 的视频标注数据,因此我们可以通过挖掘标签在数据集中的共现情况来初始化相关系数矩阵 A。
如下公式所示,为标签 i 在数据中出现的次数,为标签 i 和标签 j 两个标签一起出现的概率,两者相除便可以得到不同标签之间的条件概率。
考虑到标注数据中可能存在不准确的情况以及标签在训练和测试集中共现的次数可能会相差比较大,因此我们设置了一个阈值剔除相关性比较弱的噪声的影响。对于上面得到的矩阵 P,只有其值大于某特定值(论文中为 0.5)的时候才会考虑,否则矩阵中这两个标签的相关度会设置为 0:
Hidden Layer 用来学习节点之间的相关信息并更新节点表示,每一个 Hidden Layer 都可以用一个非线性函数表示:
Hidden Layer 可以有多层,堆叠多个 GCN 层来对节点之间交织的复杂关系进行建模。在本论文中 Hidden Layer 为两层,通过训练学习便可以得到优化后的表征标签相关性的矩阵 Output,并用于帮助视频标签分类。
最终的完整网络结构如图四所示,我们使用 InceptionV3 来提取输入视频的特征;NeXtVLAD 网络是第二届 Youtube8M 比赛单模型冠军网络,该网络可以很好的视频的多维度特征进行聚合,并且在降低特征维度的同时还能很好的保证模型性能;在网络的下半部分,我们用一个双层的 GCN 网络来帮助进行最后的视频标签分类。
▲ 图4. 视频多标签分类网络
最终的对比实验中,加入 GCN 后的视频多标签分类网络 MAP (Mean-Average-Precision) 提高了接近一个百分点,GCN 网络的加入显著性显著的提高了视频多标签的分类能力;也证明了对于多标签分类任务,通过研究多标签之间的相关依赖关系提升网络分类能力是一个很好的方向。
视频理解与分析是计算机视觉领域的一个热门问题,针对视频的特征提取以及特征聚合全世界的研究已经做了大量的工作。本文提出了从多标签相关性的视角来提升视频的多标签分类能力,并进行了有效的实验验证。通过对视频的图像特征、时序特征、标签相关性特征进行融合的分类网络可以很好的增强神经网络的视频理解能力。
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文