深度学习训练数据不平衡问题，怎么解决？

2018 年 7 月 3 日 AI研习社

本文为雷锋字幕组编译的技术博客，原标题 Deep learning unbalanced training data ? Solve it like this，作者为 Shubrashankh Chatterjee 。

翻译 | 叶青整理 | MY

当我们解决任何机器学习问题时，我们面临的最大问题之一是训练数据不平衡。不平衡数据的问题在于学术界对于相同的定义、含义和可能的解决方案存在分歧。我们将尝试用图像分类问题来解开训练数据中不平衡类别的奥秘。

不平衡类会有什么问题？

在一个分类问题中，如果在所有你想要预测的类别里有一个或者多个类别的样本量非常少，那你的数据也许就面临不平衡类别的问题。

举例

1.欺诈预测（欺诈的数量远远小于真实交易的数量）

2.自然灾害预测（不好的事情远远小于好的事情）

3.在图像分类中识别恶性肿瘤（训练样本中含有肿瘤的图像远比没有肿瘤的图像少）

为什么这是个问题呢？

不平衡类别会造成问题有两个主要原因：

1.对于不平衡类别，我们不能得到实时的最优结果，因为模型/算法从来没有充分地考察隐含类。

2.它对验证和测试样本的获取造成了一个问题，因为在一些类观测极少的情况下，很难在类中有代表性。

解决这个问题有哪些不同方法？

现在有三种主要建议的方法，它们各有利弊：

1.欠采样 - 随机删除观测数量足够多的类，使得两个类别间的相对比例是显著的。虽然这种方法使用起来非常简单，但很有可能被我们删除了的数据包含着预测类的重要信息。

2.过采样 - 对于不平衡的类别，我们使用拷贝现有样本的方法随机增加观测数量。理想情况下这种方法给了我们足够的样本数，但过采样可能导致过拟合训练数据。

3.合成采样（ SMOTE ）-该技术要求我们用合成方法得到不平衡类别的观测，该技术与现有的使用最近邻分类方法很类似。问题在于当一个类别的观测数量极度稀少时该怎么做。比如说，我们想用图片分类问题确定一个稀有物种，但我们可能只有一幅这个稀有物种的图片。

尽管每种方法都有各自的优点，但没有什么特定的启发式方法告诉我们什么时候使用哪种方法。我们现在将使用深度学习特定的图像分类问题详细研究这个问题。

图像分类中的不平衡类

在本节中，我们将选取一个图像分类问题，其中存在不平衡类问题，然后我们将使用一种简单有效的技术来解决它。

问题 - 我们在 kaggle 网站上选择「座头鲸识别挑战」，我们期望解决不平衡类别的挑战（理想情况下，所分类的鲸鱼数量少于未分类的鲸类，并且也有少数罕见鲸类我们有的图像数量更少。）

来自 kaggle ：「在这场比赛中，你面临着建立一个算法来识别图像中的鲸鱼种类的挑战。您将分析 Happy Whale 数据库中的超过25,000张图像，这些数据来自研究机构和公共贡献者。通过您的贡献，将会帮助打开有关全球海洋哺乳动物种群动态丰富的理解领域。」

我们来看看数据

由于这是一个多标签图像分类问题，我想首先检查数据在各个类别间的分布情况。

上面的图表表明，在4251个训练图片中，有超过2000个类别中只有一张图片。还有一些类中有2-5个图片。现在，这是一个严重的不平衡类问题。我们不能指望用每个类别的一张图片对深度学习模型进行训练（虽然有些算法可能正是用来做这个的，例如 one-shot 分类问题，但我们现在忽略先这一点）。这也会产生一个问题，即如何划分训练样本和验证样本。理想情况下，您会希望每个类都在训练和验证样本中有所体现。