最小描述长度( MDL)

最小描述长度( MDL) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D ，如果要对其进行保存，为了节省存储空间，一般采用某种模型对其进行编码压缩，然后再保存压缩后的数据。同时，为了以后正确恢复这些实例数据，将所用的模型也保存起来。所以需要保存的数据长度( 比特数) 等于这些实例数据进行编码压缩后的长度加上保存模型所需的数据长度，将该数据长度称为总描述长度。最小描述长度( MDL) 原理就是要求选择总描述长度最小的模型。如果将贝叶斯网络作为对实例数据进行压缩编码的模型， MDL原理就可以用于贝叶斯网络的学习。该度量被视为网络结构的描述长度和在给定结构下样本数据集的描述长度之和。一方面，用于描述网络结构的编码位随模型复杂度的增加而增加；另一方面，对数据集描述的编码位随模型复杂度的增加而下降。因此，贝叶斯网络的 MDL总是力求在模型精度和模型复杂度之间找到平衡。构建贝叶斯网络首先定义一个评分函数，该评分函数描述了每个可能结构对观察到的数据拟合，其目的就是发现评分最大的结构，这个过程连续进行到新模型的评分分数不再比老模型的高为止

精品内容

【KDD2019|讲座推荐】现代MDL与数据挖掘的结合--洞察力、理论和实践：Modern MDL meets Data Mining -- Insights, Theory, and Practice

专知会员服务

17+阅读 · 2019年12月9日

参考链接

微信扫码咨询专知VIP会员

Top