标签间相关性在多标签分类问题中的应用

会员服务 ·

标签间相关性在多标签分类问题中的应用

2019 年 6 月 5 日 人工智能前沿讲习班

一

多标签问题的简单解决思路

利用神经网络，我们可以很轻松处理一个多标签问题。如标题图所示，为前馈神经网络添加适当数量的隐含层，同时在输出层使用某个阈值判断标签分类结果即为一种基础的解决思路。

上述是一种简单的从多分类问题拓展到多标签问题的解决思路，这样的思路中，我们可以用输出结果[0.1, 0.9, 0.8, 0.2, 0.85]表示该输入属于标签2、3和5（假设阈值为0.5，标签从1开始计数）。

二

存在的问题

上述思路存在的问题之一是没有考虑标签间的相关性，而这种相关性可能能够提高特定问题上模型的效果。例如，在对文章进行分类的时候，我们经常能够看到标签神经网络和深度学习一起出现，而神经网络和区块链一起出现的几率就会降低一些，我们基本可以从中得知，标签为"神经网络"的文章具有较大的可能也可以具有"深度学习"标签，这便是标签间相关性对多标签问题模型的促进效果。

三

解决思路

如今我们希望在多标签分类问题中考虑标签间的相关性，因此我阅读了较新的相关文献，对这些文献进行了总结。

3.1 COLING2018《SGM: Sequence Generation Model for Multi-label Classification》

来源链接：https://arxiv.org/abs/1806.04822

这篇论文是COLING2018 Best papers（Best error analysis & Best evaluation），其误差分析和评估方面做的比较好，论文主要的贡献是：

1. 把多标签分类问题当做序列生成问题，进而考虑标签间相关性
2. 在序列生成模型的decode部分进行了改造，不但考虑了标签间相关性，还自动获取了输入文本的关键信息（Attention机制）
3. 本论文提出的方法效果极好，指标比baseline提升很多。在关系表示上也具有非常好的效果。

模型如下图所示：

我试着将自己代入作者，梳理了作者的思考思路：

Seq2Seq模型的输入和输出均为序列，且能够学习到输入和输出序列的相关性。对于文本的多标签分类问题，这似乎是个很合适的选择。

然而，直接套用会存在一些能够想到的问题，因此作者一步步来解决这些问题：

1、多标签分类的输出显然是不能重复的，于是作者在最终输出的时候引入了将已输出的标签剔除。

2、Seq2Seq中某时刻的输出对时刻输出影响很大，也就是说时刻出错会对时刻之后的所有输出造成严重影响。在多标签分类问题中，我们显然不想让标签间拥有如此强的关联性，于是作者提出Global Embedding：

其中表示时刻输出对应的Embedding，在不存在Global Embedding时，。此处我们引入Global Embedding，让其等于某时刻的概率向量和各个标签Embedding的乘积，降低对值的影响。

3、考虑到出现此处更多的标签在标签相关性训练中具有更强的作用，在训练时把标签按照其出现次数进行从高到低排序作为输出序列。出现次数更多的标签可以出现LSTM的前面，进而更好地指导整个标签的输出。

4、此外，作者在使用Seq2Seq时，在Encode部分加入双向LSTM，在Decode部分加入了目前很常用的Attention机制。这些已经是大家耳熟能详的组件了，目前在Seq2Seq模型中也很常用。

3.2《Deep Learning with a Rethinking Structure for Multi-label Classification》

来源链接：https://arxiv.org/abs/1802.01697

有了上篇文章的铺垫，这篇文章思路显得容易理解很多。之前我们提到，直接将RNN用于标签的序列生成存在上述提到的一些问题。作者这里使用了名为rethinking的decode组件：

这里主要分为两层：RNN + Dense。

在RNN层中，使用一种名为SRN的简化版RNN：

该层主要学习了标签间的相关性，表示标签和之间的相关性：

经过了Dense层，的结果实际上已经能够预测出多标签，但是并没有学习到标签间的关系。随着的增大，阶段已经能够学习到标签间的关系，这样的机制就叫做rethinking。

总的来说，这篇论文主要提出了上述名为rethinking的组件，让RNN应用在了多标签分类问题上。

-----END-----

@Octocat

本文版权归《Octocat》，转载请自行联系。

点击文末阅读原文或扫描上方二维码报名

历史文章推荐

你正在看吗？👇

登录查看更多

相关内容

多标签分类

关注 2

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

零样本图像分类综述 : 十年进展

专知会员服务

128+阅读 · 2019年11月16日

【报告推荐 | HEC-Montreal唐建博士】图神经网络推理，附27页ppt

专知会员服务

78+阅读 · 2019年11月13日

【斯坦福大学】用于生物医学图像分割的机器学习技术:技术方面的概述和技术应用的介绍

专知会员服务

42+阅读 · 2019年11月8日

【上海交大】半监督学习理论及其研究进展概述

专知会员服务

71+阅读 · 2019年10月18日

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

一文看懂逻辑回归算法（基本概念+优缺点+美团应用案例）

AINLP

8+阅读 · 2019年10月17日

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

用CNN做在NLP句子分类

数据挖掘入门与实战

7+阅读 · 2018年5月9日

【ICCV17论文笔记】循环注意力区域实现图像多标签分类

专知

9+阅读 · 2018年4月21日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

学界 | 一文概览卷积神经网络中的类别不均衡问题

机器之心

9+阅读 · 2017年10月31日

机器学习算法比较

我爱机器学习

4+阅读 · 2016年12月11日

A Sensitivity Analysis of Attention-Gated Convolutional Neural Networks for Sentence Classification

Arxiv

4+阅读 · 2019年8月25日

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Multimodal Semantic Attention Network for Video Captioning

Arxiv

4+阅读 · 2019年5月8日

Exploring RNN-Transducer for Chinese Speech Recognition

Arxiv

4+阅读 · 2019年4月23日

Exploring the Semantics for Visual Relationship Detection

Arxiv

3+阅读 · 2019年4月3日

On Attribution of Recurrent Neural Network Predictions via Additive Decomposition

Arxiv

3+阅读 · 2019年3月27日

Deep Short Text Classification with Knowledge Powered Attention

Arxiv

8+阅读 · 2019年2月21日

Parsimonious Bayesian deep networks

Arxiv

5+阅读 · 2018年10月17日

MARS: Memory Attention-Aware Recommender System

Arxiv

6+阅读 · 2018年5月18日

Subset Labeled LDA for Large-Scale Multi-Label Classification

Arxiv

3+阅读 · 2017年9月16日

VIP会员