成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
ICCV 2019 论文解读:用图神经网络改善视频的多标签分类
2019 年 11 月 28 日
AI科技评论
作者 | 王磊
编辑 | 唐里
本文介
绍了汽车之家团队在I
CCV 2019一篇关于视频理解论文相关的工作。针对视频多标签分类的问题,论文提出了将视频多标签之间相关性特征加入到网络之中,结果证明该方法可以显著的提高视频多标签分类效果。
背景介绍:
随着视频应用的不断普及,视频内容理解与分析成为计算机视觉领域的一个热门研究方向。2017年,Google开源了其大规模视频内容数据集Youtube8M,鼓励研究者通过该数据集利用深度学习技术进行视频理解的研究。
最新的Youtube-8M数据集包括两部分,第一部分为video-level(视频层级)的标注,该部分总计包含610万个已标注的视频,3862个分类,平均每个视频标注了3个标签;第二部分为segment-level(视频片段标注),该部分挑选了1000个分类,对视频中随机抽取的5秒片段进行标注,该部分总共有23.7万个标注数据;值得注意的是,segment-level的数据标注仅标注了抽取的5秒视频片段是否属于某一特定标签,并没有标识该视频片段的所有标签。
标签相关性:
近年来,视频理解成为计算机视觉领域的一个热点方向。相比较图像内容,视频内容更为复杂多样,因此对于视频内容而言,单个标签很难完整的表征视频的内容,对于视频内容理解分析大多为多标签的分类问题。
在视频标签中,很多标签之间会有一定的相关性并成对出现;如图一所示(标签从Youtube8M数据集中选取),当宝马(BMW)、发动机(Engine)的标签出现时,汽车(Car)的标签大概率也会出现;但是当汽车的标签出现时,宝马标签出现的可能性则非常低。
图1.标签有向图示例
通过对Youtube8M数据集的部分标签数据进行分析,可以得到一个图来表征各个标签之间的关系,如图二所示。图二中每个不同颜色的节点代表一个独立的标签类别,不同节点之间的连线代表着两个节点之间是否有相关性,节点之间连线上的数值则代表了不同的标签之间联系的紧密程度,数值越大,则联系越高;没有联系的节点之间则不会有线连接。
通过对视频的多标签之间的相关性进行建模分析,并通过图神经网络将标签类别映射为对应类别分类器加入到最终的视频多标签分类网络之中,可以提升整体模型的学习分类能力。
图2.标签相关性Wighted-Graph表示
图卷积神经网络(Graph Convolutional Network):
如何有效获取目标标签之间的相关性?如何利用这些标签相关性提升网络的特征学习以及分类表现?这是视频多标签分类的两个重要问题。由于图的特点可以很好的表征各个标签之间的相互依赖性,因此我们选择基于图神经网络进行建模学习,并用于最终视频分类网络中。一个图神经网络的基本结构如图三所示:
图3.图神经网络基本结构
Input输入有两个,一个为特征描述矩阵H(n*d),另一个为相关系数矩阵A(n*n),其中n为节点个数,即所有标签的个数,d为特征的维度,特征维度根据采用的CNN结构决定。
相关系数矩阵是GCN网络中表征标签关系的一个矩阵,因此如何构建相关系数矩阵 A 就成了GCN 模型中一个非常重要的问题。由于Youtube8M数据集有超过600万的video-level的视频标注数据,因此我们可以通过挖掘标签在数据集中的共现情况来初始化相关系数矩阵A。
为标签i在数据中出现
的次数,
为标签i和标签j两个标签一起出现的概率,两者相除便可以得到不同标签之间的条件概率矩阵P。
考虑到标注数据中可能存在不准确的情况以及标签在训练和测试集中共现的次数可能会相差比较大,因此我们设置了一个阈值剔除相关性比较弱的噪声的影响。对于上面得到的矩阵P,只有其值大于某特定值(论文中为0.5)的时候才会考虑,否则矩阵中这两个标签的相关度会设置为0,因此优化后的条件概率矩阵如下所示:
Hidden Layer用来学习节点之间的相关信息并更新节点表示,每一个Hidden Layer都可以用一个非线性函数表示:
Hidden Layer可以有多层,堆叠多个 GCN 层来对节点之间交织的复杂关系进行建模。在本论文中Hidden Layer为两层,通过训练学习便可以得到优化后的表征标签相关性的矩阵Output,并用于帮助视频标签分类
整体网络:
最终的完整网络结构如图四所示,我们使用InceptionV3来提取输入视频的特征;NeXtVLAD网络是第二届Youtube8M比赛单模型冠军网络,该网络可以很好的视频的多维度特征进行聚合,并且在降低特征维度的同时还能很好的保证模型性能;在网络的下半部分,我们用一个双层的GCN网络来帮助进行最后的视频标签分类。最终的对比实验中,加入GCN后的视频多标签分类网络MAP(Mean-Average-Precision)提高了接近一个百分点,GCN网络的加入显著性显著的提高了视频多标签的分类能力;也证明了对于多标签分类任务,通过研究多标签之间的相关依赖关系提升网络分类能力是一个很好的方向。
图四.整体网络结构
结论:
视频理解与分析是计算机视觉领域的一个热门问题,针对视频的特征提取以及特征聚合全世界的研究已经做了大量的工作。本文提出了从多标签相关性的视角来提升视频的多标签分类能力并进行了有效的实验验证。
通过对视频的图像特征、时序特征、标签相关性特征进行融合的分类网络可以很好的增强神经网络的视频理解能力。
点击“
阅读
原文
”查看
ICCV顶会报道
登录查看更多
点赞并收藏
0
暂时没有读者
11
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
多标签分类
关注
2
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
【CVPR 2020-人大】 基于层次图推理的细粒度文本视频跨模态检索
专知会员服务
66+阅读 · 2020年4月5日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
【IJCV2020】通过迭代亲密学习实现弱监督语义分割
专知会员服务
41+阅读 · 2020年2月20日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
112+阅读 · 2019年10月20日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
CVPR 2019 | 微软亚洲研究院7篇精选论文解读
微软研究院AI头条
23+阅读 · 2019年6月18日
CVPR 2019 论文解读精选
AI研习社
7+阅读 · 2019年6月16日
【学界】CVPR 2019「准满分」论文:英伟达推出首个跨摄像头汽车跟踪数据集
GAN生成式对抗网络
8+阅读 · 2019年3月27日
数据挖掘的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
7+阅读 · 2019年3月11日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
CVPR 2018 | 商汤科技Spotlight论文详解:极低延迟性的视频语义分割
商汤科技
4+阅读 · 2018年5月30日
论文分类
统计学习与视觉计算组
5+阅读 · 2018年3月13日
ICCV | 深度三维残差神经网络:视频理解新突破
微软研究院AI头条
8+阅读 · 2017年10月27日
专栏 | CVPR 2017论文解读:基于视频的无监督深度和车辆运动估计
机器之心
3+阅读 · 2017年7月27日
Multimodal Semantic Attention Network for Video Captioning
Arxiv
4+阅读 · 2019年5月8日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection
Arxiv
11+阅读 · 2018年7月16日
A fast algorithm with minimax optimal guarantees for topic models with an unknown number of topics
Arxiv
7+阅读 · 2018年6月12日
Bilinear Attention Networks
Arxiv
11+阅读 · 2018年5月21日
I Have Seen Enough: A Teacher Student Network for Video Classification Using Fewer Frames
Arxiv
8+阅读 · 2018年5月12日
ECO: Efficient Convolutional Network for Online Video Understanding
Arxiv
5+阅读 · 2018年5月7日
SINet: A Scale-insensitive Convolutional Neural Network for Fast Vehicle Detection
Arxiv
11+阅读 · 2018年4月2日
Hierarchical Label Inference for Video Classification
Arxiv
6+阅读 · 2018年1月21日
Crossing Generative Adversarial Networks for Cross-View Person Re-identification
Arxiv
10+阅读 · 2018年1月4日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
多标签分类
视频理解
标注
图神经网络
ICCV
YouTube
相关VIP内容
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
【CVPR 2020-人大】 基于层次图推理的细粒度文本视频跨模态检索
专知会员服务
66+阅读 · 2020年4月5日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
【IJCV2020】通过迭代亲密学习实现弱监督语义分割
专知会员服务
41+阅读 · 2020年2月20日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
112+阅读 · 2019年10月20日
热门VIP内容
开通专知VIP会员 享更多权益服务
【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果
近十年视觉任务中的对抗攻击研究综述
【CMU博士论文】使用数据不确定解释的可信学习
国家标准《人工智能风险管理能力评估》(征求意见稿)
相关资讯
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
CVPR 2019 | 微软亚洲研究院7篇精选论文解读
微软研究院AI头条
23+阅读 · 2019年6月18日
CVPR 2019 论文解读精选
AI研习社
7+阅读 · 2019年6月16日
【学界】CVPR 2019「准满分」论文:英伟达推出首个跨摄像头汽车跟踪数据集
GAN生成式对抗网络
8+阅读 · 2019年3月27日
数据挖掘的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
7+阅读 · 2019年3月11日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
CVPR 2018 | 商汤科技Spotlight论文详解:极低延迟性的视频语义分割
商汤科技
4+阅读 · 2018年5月30日
论文分类
统计学习与视觉计算组
5+阅读 · 2018年3月13日
ICCV | 深度三维残差神经网络:视频理解新突破
微软研究院AI头条
8+阅读 · 2017年10月27日
专栏 | CVPR 2017论文解读:基于视频的无监督深度和车辆运动估计
机器之心
3+阅读 · 2017年7月27日
相关论文
Multimodal Semantic Attention Network for Video Captioning
Arxiv
4+阅读 · 2019年5月8日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection
Arxiv
11+阅读 · 2018年7月16日
A fast algorithm with minimax optimal guarantees for topic models with an unknown number of topics
Arxiv
7+阅读 · 2018年6月12日
Bilinear Attention Networks
Arxiv
11+阅读 · 2018年5月21日
I Have Seen Enough: A Teacher Student Network for Video Classification Using Fewer Frames
Arxiv
8+阅读 · 2018年5月12日
ECO: Efficient Convolutional Network for Online Video Understanding
Arxiv
5+阅读 · 2018年5月7日
SINet: A Scale-insensitive Convolutional Neural Network for Fast Vehicle Detection
Arxiv
11+阅读 · 2018年4月2日
Hierarchical Label Inference for Video Classification
Arxiv
6+阅读 · 2018年1月21日
Crossing Generative Adversarial Networks for Cross-View Person Re-identification
Arxiv
10+阅读 · 2018年1月4日
大家都在搜
palantir
汽车智能化
武器目标分配
兵棋推演
知识图谱
智能推荐
壁画
PRML
MoE
EBSD晶体学织构基础及数据处理
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top