本课程深入介绍机器学习中的数学理论、算法和核方法的应用。该课程是为研究生开设的,由Julien Mairal和Jean-Philippe Vert于2021年教授,是巴黎高等师范学院“数学、计算机视觉和机器学习”硕士课程的一部分。
http://members.cbio.mines-paristech.fr/~jvert/svn/kernelcourse/course/2021mva/index.html
机器学习在现实世界应用中的许多问题可以被形式化为经典的统计问题,例如模式识别、回归或降维,但要注意的是数据通常不是数字的向量。例如,计算生物学中的蛋白质序列和结构、web挖掘中的文本和XML文档、图像处理中的分割图像、语音识别和金融中的时间序列,都具有包含统计问题相关信息但难以编码为有限维向量表示的特定结构。
内核方法是一类非常适合于此类问题的算法。实际上,它们将最初为向量设计的许多统计方法的适用性扩展到了几乎任何类型的数据,而不需要对数据进行明确的向量化。向非向量扩展的代价是需要在对象之间定义一个所谓的正定核函数,形式上相当于数据的隐式向量化。近年来,各种对象内核设计的“艺术”取得了重要的进展,产生了许多最先进的算法,并在许多领域获得了成功的应用。
本课程的目的是介绍核方法的数学基础,以及到目前为止在核设计中出现的主要方法。我们将首先介绍正定核的理论和重建核希尔伯特空间,这将允许我们介绍几种核方法,包括核主成分分析和支持向量机。然后我们再回到定义内核的问题。我们将介绍关于Mercer核和半群核的主要结果,以及字符串和图的核的一些例子,从计算生物学的应用,文本处理和图像分析。最后,我们将讨论一些活跃的研究课题,如大规模核方法和深度核机器。