现代数据分析方法被期望处理大量的高维数据,这些数据被收集在不同的领域。这种数据的高维性带来了许多挑战,通常被称为“维数灾难”,这使得传统的统计学习方法在分析时不切实际或无效。为了应对这些挑战,人们投入了大量精力来开发几何数据分析方法,这些方法对处理数据的固有几何形状进行建模和捕获,而不是直接对它们的分布进行建模。在本课程中,我们将探讨这些方法,并提供他们使用的模型和算法的分析研究。我们将从考虑监督学习开始,并从后验和似然估计方法中区分基于几何原则的分类器。接下来,我们将考虑聚类数据的无监督学习任务和基于密度估计的对比方法,这些方法依赖于度量空间或图结构。最后,我们将考虑内在表示学习中更基本的任务,特别关注降维和流形学习,例如,使用扩散图,tSNE和PHATE。如果时间允许,我们将包括与本课程相关的研究领域的客座演讲,并讨论图形信号处理和几何深度学习的最新发展。
目录内容:
Topic 01 - Intoduction (incl. curse of dimensionality & overiew of data analysis tasks)
Topic 02 - Data Formalism ((incl. summary statistics, data types, preprocessing, and simple visualizations)
Topic 03 - Bayesian Classification (incl. decision boundaries, MLE, MAP, Bayes error rate, and Bayesian belief networks)
Topic 04 - Decision Trees (incl. random forests, random projections, and Johnson-Lindenstrauss lemma)
Topic 05 - Principal Component Analysis (incl. preprocessing & dimensionality reduction)
Topic 06 - Support Vector Machines (incl. the "kernel trick" & mercer kernels)
Topic 07 - Multidimensional Scaling (incl. spectral theorem & distance metrics)
Topic 08 - Density-based Clustering (incl. intro. to clustering & cluster eval. with RandIndex)
Topic 09 - Partitional Clustering (incl. lazy learners, kNN, voronoi partitions)
Topic 10 - Hierarchical Clustering (incl. large-scale & graph partitioning)
Topic 11 - Manifold Learning (incl. Isomap & LLE)
Topic 12 - Diffusion Maps