讲座题目
现代MDL与数据挖掘的结合--洞察力、理论和实践:Modern MDL meets Data Mining -- Insights, Theory, and Practice
讲座简介
当考虑一个数据集时,通常不知道它是如何的,因此描述或捕获其主要特征的模型应该有多复杂。通常,这些选择会被掩盖、忽略,交给领域专家处理,但在实践中,这是非常不令人满意的;领域专家不知道如何设置$k$,在选择之前选择什么,或者有多少自由度比我们做的更理想。 最小描述长度(MDL)原理能够从清晰直观的角度回答模型选择问题。简而言之,它断言最好的模型是同时压缩数据和模型的模型。在本教程中,我们不仅介绍了模型选择的基本知识,展示了基于MDL的建模的重要特性、成功的例子以及如何应用MDL解决数据挖掘问题的陷阱,还介绍了现代MDL中重要新概念的高级主题(例如,归一化最大似然(NML)、顺序NML、分解NML和MDL变化统计)和动态设置中的新兴应用。在本教程中,我们的目标是确保读者不仅掌握基本理论,而且了解如何将其付诸实践。
讲座嘉宾
Jilles Vreeken ,在赫尔姆霍兹信息安全中心领导探索性数据分析研究小组。此外,是马克斯·普朗克信息学研究所数据库和信息系统组(D5)的高级研究员,萨尔兰大学计算机科学系的教授。研究主要涉及数据挖掘和机器学习。特别是,喜欢开发理论和算法来回答关于数据的探索性问题,例如“我的数据中的因果依赖关系是什么”或“这是我的数据,告诉我需要知道什么”。为了确定什么是有价值的结构,经常采用基于信息论的有根据的统计方法。在此基础上,可以开发出高效的算法,从大量复杂的数据中提取有用的、有见地的结果。