选自arXiv
机器之心编译
参与:蒋思源、李泽南
在本论文中南京大学周志华教授与其学生冯霁提出了 EncoderForest(eForest),即通过树型集成算法执行前向编码和后向解码运算,该算法可以通过监督式和无监督式的方法进行训练。
自编码器是一类很重要的任务,通常是使用如 CNN 那样的深度神经网络进行构建。在本论文中,我们提出了 EncoderForest(eForest),即第一种基于树型集成方法的自编码器。我们展示了一个能使森林利用树的决策路径进行后向重构的方法,并在无监督和有监督训练环境下展示了其使用方法。试验结果表明,相对于 DNN 自编码器,eForest 能获得较低的重构误差(reconstruction error)和较快的训练速度。此外,模型本身还具有容损性(damage-tolerable)和可复用性(reusable)。
实验证明 eForest 方法具有以下优势:
准确性:实验重构误差(reconstruction error)比基于 MLP 和 CNN 的自编码器更低。
高效性:eForest 在单块 KNL(多核 CPU)上训练的速度甚至比 CNN 自编码器在 Titan-X GPU 上还快。
容损性(Damage-tolerable):训练的模型即使在部分损坏的情况下也能很好地工作。
可复用性(Reusable):从一个数据集训练的模型可直接应用于同一领域下的其他数据集。
3. 提出的方法
首先,我们提出了 EncoderForest 的编码过程。给定树型集成模型(T 棵已训练的树),前向编码过程接受输入数据并将其发送到集成方法中每棵树的根结点,一旦数据遍历(traverse)到所有树的叶结点,该过程将返回 T 维向量,每个元素 t 是树 t 中的叶结点的整数索引。
实际上,森林一般可以从每棵树的根结点传播到叶结点而进行前向预测,但并不明确如何进行后向重构,即如何从叶结点中获得的信息推出原始样本。
现在假定在编码过程中我们已经生成了图一所示的森林。那么我们仅能知道样本 x 最终分配的叶结点(图 1 红色结点),因此我们现在希望能利用叶结点的信息重构 x。
这里,我们提出了一个非常简单的策略以在森林中执行后向重构。首先,每个叶结点实际上都对应于一条来自根结点的路径,因此我们可以基于叶结点确定地识别该路径。
图 1:沿着决策路径后向遍历。
现在,我们可以总结 eForest 的后向解码过程。具体来说,给定一个已训练的森林和特定数据在 R^T 中前向编码的 x_enc,后向解码将首先通过 x_enc 中的每个元素定位独立的叶结点,然后获得对应决策路径的 T 个决策规则。随后通过计算 MCR(Maximal-Compatible Rule),我们能从 x_enc 反推回输入空间中的 x_dec,因此也就得到了重构。后向解码的伪代码如下所示:
4. 实验
表 1:性能比较(通过 MSE 度量)。下标 s 和 u 分别表示监督和无监督。
图 2. 原始测试样本(第一行)与重构的样本
表 4:时间成本(以秒计)和样本解码时间
图 3:模型部分损坏时的性能
结论
在本论文中,我们提出了 EncoderForest(简称 eForest),第一个基于树型集成算法的自编码器模型,通过设计一个有效的过程,我们让随机森林能够通过由树的决策路径所定义的最大相容规则(MCR)来重构原模式。实验证明了它在速度和准确率上的优势,同时,eForest 也具有容错性,模型可复用性也很高。特别地,在文本数据上,只使用 10% 的输入,该模型就可以重构出准确性很高的原始数据。eForest 的另一个优势在于,它可以直接应用于符号属性或混合属性,而不用将符号属性转换为数值属性,特别是在考虑转换过程通常会丢失信息或引入额外偏差时。
注意,监督和无监督的 eForest 实际上是由多层 gcForest 深度森林的两个部分共同组成的。这项工作或许可为理解 gcForest(Zhou & Feng,2017)带来帮助。构建深度 eForest 模型也是一个未来的可能方向。
点击「阅读原文」来 PaperWeekly 参与讨论此论文。
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告&商务合作:bd@jiqizhixin.com