多标签文本分类方法与长期学习班级分配的平衡方法 (Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution) - 专知论文

会员服务 ·

0

文本分类 · 损失函数（机器学习） · 类别 · 标注 · 过采样 ·

2021 年 10 月 15 日

Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution

翻译：多标签文本分类方法与长期学习班级分配的平衡方法

Yi Huang,Buse Giledereli,Abdullatif Köksal,Arzucan Özgür,Elif Ozkirimli

from arxiv, EMNLP 2021

Multi-label text classification is a challenging task because it requires capturing label dependencies. It becomes even more challenging when class distribution is long-tailed. Resampling and re-weighting are common approaches used for addressing the class imbalance problem, however, they are not effective when there is label dependency besides class imbalance because they result in oversampling of common labels. Here, we introduce the application of balancing loss functions for multi-label text classification. We perform experiments on a general domain dataset with 90 labels (Reuters-21578) and a domain-specific dataset from PubMed with 18211 labels. We find that a distribution-balanced loss function, which inherently addresses both the class imbalance and label linkage problems, outperforms commonly used loss functions. Distribution balancing methods have been successfully used in the image recognition field. Here, we show their effectiveness in natural language processing. Source code is available at https://github.com/Roche/BalancedLossNLP.

翻译：多标签文本分类是一项具有挑战性的任务,因为它需要捕捉标签依赖性。当分类分布长时,它就更具挑战性。重新抽样和重新加权是用来解决分类不平衡问题的常见方法, 但是,当除了分类不平衡之外还有标签依赖性, 因为它们导致过度采样通用标签时,它们就无效。这里, 我们引入了多标签文本分类中平衡损失功能的应用。我们实验了一个通用域数据集, 包含90个标签( Reuters-21578) 和来自 PubMed 18211 标签的域名数据集。我们发现一个分布平衡损失功能, 它必然解决了分类不平衡和标签连接问题, 优于常用的损耗函数。分布平衡方法在图像识别字段中已被成功使用。在此, 我们展示了它们在自然语言处理中的有效性。源代码可在 https://github.com/Roche/BalancedLosNLP 上查阅。

0

相关内容

文本分类

文本分类（Text Classification）任务是根据给定文档的内容或主题，自动分配预先定义的类别标签。

【2021干货书】Python可解释人工智能，207页pdf，Explainable AI with Python

【2021干货书】Python可解释人工智能，207页pdf，Explainable AI with Python

专知会员服务

186+阅读 · 2021年5月17日

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

专知会员服务

15+阅读 · 2020年8月26日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知会员服务

77+阅读 · 2020年7月23日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

250+阅读 · 2020年4月19日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

深度学习自然语言处理

7+阅读 · 2020年4月8日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

已删除

生物探索

3+阅读 · 2018年2月10日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

Out-of-Distribution Detection without Class Labels

Out-of-Distribution Detection without Class Labels

Arxiv

0+阅读 · 2021年12月14日

Margin Calibration for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2021年12月14日

PTR: Prompt Tuning with Rules for Text Classification

Arxiv

7+阅读 · 2021年5月24日

CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

Arxiv

11+阅读 · 2021年2月18日

Asymmetric Loss For Multi-Label Classification

Arxiv

6+阅读 · 2020年9月29日

Equalization Loss for Long-Tailed Object Recognition

Equalization Loss for Long-Tailed Object Recognition

Arxiv

5+阅读 · 2020年4月14日

Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

Arxiv

3+阅读 · 2019年12月17日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Arxiv

6+阅读 · 2019年2月26日

LNEMLC: Label Network Embeddings for Multi-Label Classification

Arxiv

3+阅读 · 2019年1月1日

VIP会员

文章信息

相关主题

损失函数（机器学习）

相关VIP内容

【2021干货书】Python可解释人工智能，207页pdf，Explainable AI with Python

【2021干货书】Python可解释人工智能，207页pdf，Explainable AI with Python

专知会员服务

186+阅读 · 2021年5月17日

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

专知会员服务

15+阅读 · 2020年8月26日

Python图像处理，366页pdf，Image Operators Image Processing in Python

Python图像处理，366页pdf，Image Operators Image Processing in Python

专知会员服务

77+阅读 · 2020年7月23日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

250+阅读 · 2020年4月19日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

TensorFlow官方开源的神经结构学习（Neural Structured Learning）库

专知会员服务

18+阅读 · 2019年10月18日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军特种作战条令》最新102页

《洛克希德SR-71“黑鸟”侦察机动力系统》21页slides

美空军作战实验室通过人工智能和指挥控制技术创新推进杀伤链

《指挥控制能力分析方法论》最新报告

相关资讯

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)

深度学习自然语言处理

7+阅读 · 2020年4月8日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

已删除

生物探索

3+阅读 · 2018年2月10日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

相关论文

Out-of-Distribution Detection without Class Labels

Out-of-Distribution Detection without Class Labels

Arxiv

0+阅读 · 2021年12月14日

Margin Calibration for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2021年12月14日

PTR: Prompt Tuning with Rules for Text Classification

Arxiv

7+阅读 · 2021年5月24日

CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

Arxiv

11+阅读 · 2021年2月18日

Asymmetric Loss For Multi-Label Classification

Arxiv

6+阅读 · 2020年9月29日

Equalization Loss for Long-Tailed Object Recognition

Equalization Loss for Long-Tailed Object Recognition

Arxiv

5+阅读 · 2020年4月14日

Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

Arxiv

3+阅读 · 2019年12月17日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Arxiv

6+阅读 · 2019年2月26日

LNEMLC: Label Network Embeddings for Multi-Label Classification

Arxiv

3+阅读 · 2019年1月1日

微信扫码咨询专知VIP会员