每天一分钟,带你读遍机器人顶级会议文章
标题:Deep Determinantal Point Process for Large-Scale Multi-Label Classification
作者:Pengtao Xie, Ruslan Salakhutdinov,Luntian Mou,Eric P.Xing
来源:ICCV 2017
播音员:丸子
编译:王健,周平(50)
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是——大规模多标签分类的深层决定点过程,该文章发表于ICCV2017。
我们在最近发布的两个数据集(Youtube-8M,Open Images)上研究大尺度多标签分类(MLC)问题,这些数据集包含数百万个数据实例和数千个分类。前所未有的问题规模给MLC带来了巨大的挑战。首先,从指数级的数据中选择出正确的标签子集会带来明显的数据模糊性和不确定性;再者,巨大的数据量和分类数量需要消耗相当大的计算成本。为了解决第一个问题,我们研究了两种策略:从训练数据中获取标签的相关性,并结合从外部知识中获得的标签共现关系,这样能有效地消除语义不一致的标签,并为区分视觉信息模糊的标签提供语义线索。明确地说也就是,我们提出了深度行列式点过程(DDPP)模型,它能够将DPP和深度神经网络(DNN)完美地结合,并支持端到端多标签学习和深层表示学习。DPP能够以多项式计算成本的方式捕获任何顺序的标签相关性,而DNN能够学习图像/视频的分层特征并能捕获输入数据和标签之间的依赖关系。为了结合有关标签共现关系的外部知识,我们对DDPP中的核矩阵施以相关正则化。为了解决第二个问题,我们在诱导点法的基础上研究了一种有效的低秩核学习算法。通过实验证明了所提出的方法在两个数据集上的有效性。
图1. 用于多标签分类的DDPP。 DDPP的输入包括图像或视频,标签的嵌入矢量和(可选的)关于标签共现的必要的或不可能的链接,并且输出是所选标签的子集。 DDPP使用DPP捕获标签之间的相关性,使用DNN表征图像和标签之间的依赖关系,并通过关系正则化合并必要的或不可能的链接关系。
图2.在DDPP中,条件核函数~k(ai,aj|x)是标签-标签核函数k(ai,aj)与两个标签输入得分函数g(ai,x), g(AJ,X)的乘积。k(ai,aj)由标签相关网络(LCN)表征,g(ai,x)由视觉特征网络(VFN)和标签输入依赖网络(LIDN)表示。
表1. 显示出在Youtube-8M 验证集上的MLC性能(%)
Abstract
We study large-scale multi-label classification (MLC) on two recently released datasets: Youtube-8M and Open Images that contain millions of data instances and thousands of classes. The unprecedented problem scale poses great challenges for MLC. First, finding out the correct label subset out of exponentially many choices incurs substantial ambiguity and uncertainty. Second, the large data-size and class-size entail considerable computational cost. To address the first challenge, we investigate two strategies: capturing label-correlations from the training data and incorporating label co-occurrence relations obtained from external knowledge, which effectively eliminate semantically inconsistent labels and provide contextual clues to differentiate visually ambiguous labels. Specifically, we propose a Deep Determinantal Point Process (DDPP) model which seamlessly integrates a DPP with deep neural networks (DNNs) and supports end-to-end multi-label learning and deep representation learning. The DPP is able to capture label-correlations of any order with a polynomial computational cost, while the DNNs learn hierarchical features of images/videos and capture the dependency between input data and labels. To incorporate external knowledge about label co-occurrence relations, we impose relational regularization over the kernel matrix in DDPP. To address the second challenge, we study an efficient low-rank kernel learning algorithm based on inducing point methods. Experiments on the two datasets demonstrate the efficacy and efficiency of the proposed methods.
如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号。
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/forums/
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系liufuqiang_robot@hotmail.com