最小描述长度( MDL) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再保存压缩后的数据。同时, 为了以后正确恢复这些实例数据,将所用的模型也保存起来。所以需要保存的数据长度( 比特数) 等于这些实例数据进行编码压缩后的长度加上保存模型所需的数据长度,将该数据长度称为总描述长度。最小描述长度( MDL) 原理就是要求选择总描述长度最小的模型。 如果将贝叶斯网络作为对实例数据进行压缩编码的模型, MDL原理就可以用于贝叶斯网络的学习。该度量被视为网络结构的描述长度和在给定结构下样本数据集的描述长度之和。一方面,用于描述网络结构的编码位随模型复杂度的增加而增加 ; 另一方面, 对数据集描述的编码位随模型复杂度的增加而下降。因此,贝叶斯网络的 MDL总是力求在模型精度和模型复杂度之间找到平衡。构建贝叶斯网络首先定义一个评分函数, 该评分函数描述了每个可能结构对观察到的数据拟合, 其目的就是发现评分最大的结构,这个过程连续进行到新模型的评分分数不再比老模型的高为止

VIP内容

讲座题目

现代MDL与数据挖掘的结合--洞察力、理论和实践:Modern MDL meets Data Mining -- Insights, Theory, and Practice

讲座简介

当考虑一个数据集时,通常不知道它是如何的,因此描述或捕获其主要特征的模型应该有多复杂。通常,这些选择会被掩盖、忽略,交给领域专家处理,但在实践中,这是非常不令人满意的;领域专家不知道如何设置$k$,在选择之前选择什么,或者有多少自由度比我们做的更理想。 最小描述长度(MDL)原理能够从清晰直观的角度回答模型选择问题。简而言之,它断言最好的模型是同时压缩数据和模型的模型。在本教程中,我们不仅介绍了模型选择的基本知识,展示了基于MDL的建模的重要特性、成功的例子以及如何应用MDL解决数据挖掘问题的陷阱,还介绍了现代MDL中重要新概念的高级主题(例如,归一化最大似然(NML)、顺序NML、分解NML和MDL变化统计)和动态设置中的新兴应用。在本教程中,我们的目标是确保读者不仅掌握基本理论,而且了解如何将其付诸实践。

讲座嘉宾

Jilles Vreeken ,在赫尔姆霍兹信息安全中心领导探索性数据分析研究小组。此外,是马克斯·普朗克信息学研究所数据库和信息系统组(D5)的高级研究员,萨尔兰大学计算机科学系的教授。研究主要涉及数据挖掘和机器学习。特别是,喜欢开发理论和算法来回答关于数据的探索性问题,例如“我的数据中的因果依赖关系是什么”或“这是我的数据,告诉我需要知道什么”。为了确定什么是有价值的结构,经常采用基于信息论的有根据的统计方法。在此基础上,可以开发出高效的算法,从大量复杂的数据中提取有用的、有见地的结果。

成为VIP会员查看完整内容
0
9
父主题
Top