论文浅尝 | Dynamic Weighted Majority for Incremental Learning

2017 年 12 月 22 日 开放知识图谱 邓淑敏

Yang Lu , Yiu-ming Cheung , Yuan Yan Tang. Dynamic Weighted Majority for Incremental Learning ofImbalanced Data Streams with Concept Drift. In Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17)

论文链接：http://www.ijcai.org/proceedings/2017/0333.pdf

数据流中发生的概念漂移将降低在线学习过程的准确性和稳定性。如果数据流不平衡，检测和修正概念漂移将更具挑战性。目前已经对这两个问题分别进行了深入的研究，但是还没有考虑它们同时出现的情况。在本文中，作者提出了一种基于块的增量学习方法，称为动态加权多数增量学习（DWMIL）来处理具有概念漂移和类不平衡问题的数据流。DWMIL 根据基分类器在当前数据块上的性能，对基分类器进行动态加权，实现了一个整体框架。

Algorithm & Ensemble Framework：

算法的输入：在时间点 t 的数据 D^(t)={xi belongs to X,yi belongs to Y}, i=1,...,N, 删除分类器的阈值 theta, 基分类器集合 H^(t-1)={H^(t-1)_1,...,H^(t-1)_m}, 基分类器的权重 w^(t-1), 基分类器的数量 m, 集成的规模大小 T。

step 1: 通过集成分类器对输入的进行预测

step 2: 计算当前输入的数据块在基分类器上的错误率 epsilon^t_j, 并更新基分类器的权重

step 3: 移除过时的分类器（权重值小于阈值 theta）并更新基分类器数量

step 4: 构建新的分类器并对其初始化

算法的输出：更新的基分类器集合 H^(t), 基分类器的权重 W^(t), 基分类器的数量 m, 目标预测值 bar_y。

本文的算法如下图所示：

Experiments：

本文选取了4个合成、2个真实的均具有概念漂移的数据集。并且在集合方法、自适应方法、主动漂移检测方法中各选取了一个具有代表性的作为baseline，分别是：Learn++.NIE(LPN)、Recursive Ensemble Approach (REA)、Class-Based ensemble for Class Evolution(CBCE)，并与Dynamic Weighted Majority (DWM)也进行了比较。对具有概念漂移的合成数据集和实际数据集的实验表明，DWMIL与现有技术相比，性能更好，计算成本更低。

Comparisons:

与现有方法相比，其优点在于以下 4 点：

能够使非偏移的数据流保持稳定，快速适应新的概念;
它是完全增量的，即不需要存储以前的数据;
模型中保持有限数量的分类器以确保高效;
简单，只需要一个阈值参数。

DWMIL与DWM相比:

在学习数据流的过程中，DWMIL和DWM都保留了一些分类器。但是，

在决定是否创建一个新的分类器时，DWM的依据是单个样本的预测性能。如果数据不平衡，则样本属于多数类的概率比少数类的高得多，并且对多数类样本错误分类的概率较低。因此，DWM在不平衡数据流上创建新分类器的机会很低。事实证明，它可能无法有效地适应新的概念。相比之下，DWMIL为每个数据块创建一个新的分类器，以及时学习新的概念。
在决定是否移除一个过时或低效的分类器时，DWM中分类器的权重通过固定的参数β减少，并且在归一化之后再次减小。相反，DWMIL根据性能降低了权重，没有任何标准化。因此，如果当前概念与创建分类器的概念类似，则分类器可以持续更长时间来对预测做出贡献。

DWMIL与Learn++相比:

Learn++和DWMIL都是为每个数据块创建分类，并使用分类错误率来调整权重。但是，

关于降低在过去的数据块上训练的分类器的权重这一问题，Learn++使用了时间衰减函数σ。这个σ取决于两个自由参数：a和b，其中不同的值会产生不同的结果。在DWMIL中，减重仅取决于没有自由参数的分类器的性能。
关于分类器权重的影响因素，在Learn++中，权重不仅取决于当前数据块，还取决于创建的分类器到当前数据块的数据块。在这种情况下，可能会产生偏差。具体来说，如果一个分类器在其创建的数据块上表现得非常好，它将在接下来几个数据块中持续获得更高的权重。如果概念发生变化，那么在旧概念上训练的分类器的高权重将降低预测效果。
关于分类器的性能，Learn++会保留所有的分类器。如果数据流很长，累积的分类器会增加计算负担，因为它需要评估当前分块上所有过去的分类器的性能。相比之下，DWMIL放弃了过时或无用的分类器来提高计算效率。