学习人类可理解的规则模型是可解释机器学习领域的重要研究方向之一,也和机器学习中的自动特征工程任务和数据挖掘中的子群体发现任务高度相关。传统规则学习算法多采用启发式规则生成+规则选择的两阶段范式,难以直接控制最终规则模型的精度和可解释性。
来自阿里巴巴达摩院的杨帆等多位研究者首次提出了一个完整的基于次模优化的规则学习算法框架。他们设计了一个具有次模性质的通用目标函数,其可以兼顾规则集合的精度、复杂度和重叠度。
此外,论文作者们进一步发现使用具备理论近似保证的贪心算法优化此目标函数时,生成最大化增益的单条规则的子问题可以被转化为最大化两个次模函数的差。基于此发现,作者们设计了一个利用问题次模性质的迭代式算法对子问题进行近似求解。相较于此前方法,该学习算法在精度、可解释性和计算效率三者间取得了良好平衡,并可能从对次模优化的进一步研究中获益。
https://papers.nips.cc/paper/2021/file/eaa32c96f620053cf442ad32258076b9-Paper.pdf