科学用实验来验证关于世界的假设。统计学提供了量化这一过程的工具,并提供了将数据(实验)与概率模型(假设)联系起来的方法。因为世界是复杂的,我们需要复杂的模型和复杂的数据,因此需要多元统计和机器学习。具体来说,多元统计(与单变量统计相反)涉及随机向量和随机矩阵的方法和模型,而不仅仅是随机单变量(标量)变量。因此,在多元统计中,我们经常使用矩阵表示法。与多元统计(传统统计学的一个分支)密切相关的是机器学习(ML),它传统上是计算机科学的一个分支。过去机器学习主要集中在算法上,而不是概率建模,但现在大多数机器学习方法都完全基于统计多元方法,因此这两个领域正在收敛。多变量模型提供了一种方法来学习随机变量组成部分之间的依赖关系和相互作用,这反过来使我们能够得出有关兴趣的潜在机制的结论(如生物或医学)。
两个主要任务: 无监督学习(寻找结构,聚类) 监督学习(从标记数据进行训练,然后进行预测)
挑战: 模型的复杂性需要适合问题和可用数据, 高维使估计和推断困难 计算问题。