这项工作在经典的数据不平衡问题下,探索了非常实际但极少被研究的问题:数据不平衡回归问题。现有的处理不平衡数据/长尾分布的方法绝大多数仅针对分类问题,即目标值是不同类别的离散值(索引);但是,许多实际的任务涉及连续的,甚至有时是无限多的目标值。本文推广了传统不平衡分类问题的范式,将数据不平衡问题从离散值域推广到连续域。
我们不仅提出了两种简单有效的方法去提升不平衡回归问题上的模型表现,也建立了五个新的benchmark DIR数据集,涵盖了计算机视觉,自然语言处理,和医疗问题上的不平衡回归任务。目前代码,数据,和模型已经在GitHub上开源:
https://github.com/YyzHarry/imbalanced-regression
那么开篇首先用概括一下本文的主要贡献:
我们提出了一个新的任务,称为深度不平衡回归(Deep Imbalanced Regression,简写为DIR)。DIR任务定义为从具有连续目标的不平衡数据中学习,并能泛化到整个目标范围;
我们同时提出了针对不平衡回归的新的方法,标签分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),以解决具有连续目标的不平衡数据的学习问题;
最后我们建立了五个新的DIR数据集,涵盖了computer vision,NLP,和healthcare上的不平衡回归任务,来方便未来在不平衡数据上的研究。
接下来我们进入正文。按照惯例,我会先抛开文章本身,大体梳理一下数据不平衡这个问题在分类以及回归上的一部分研究现状,在此基础上尽量详细的介绍我们的思路和方法,省去不必要的细节。