这个更新的手册提供了理解和开发线性代数在数据挖掘和机器学习中应用所必需的线性代数背景。这里既介绍了基础知识,也介绍了高级新主题(谱理论、奇异值、矩阵、张量和多维数组的分解技术),以及线性代数的几种应用(k-means聚类、双坐标图、最小二乘逼近、降维技术、张量和多维数组)。这本有用的参考文献包括了600多个练习和补充材料,其中许多都有完成的解决方案和MATLAB应用。该书对模式识别/图像分析、人工智能、机器学习和数据库领域的专业人员、学者、研究者和研究生都有益处。
线性代数在数据挖掘和模式识别研究中的作用日益重要,无论是直接应用,还是通过在图论和优化中应用线性代数。基于线性代数的算法既简洁又快速,它们基于一个包含基本思想和技巧的公共数学原理,并且易于实现;它们特别适合并行和分布式计算来解决如从整个网络中搜索和提取模式之类的大规模挑战性问题。因此,线性代数技术在数据挖掘和机器学习研究中的应用构成了一个日益吸引人的领域。许多线性代数的结果对其在生物学、化学、心理学和社会学中的应用至关重要。
计算机科学家的标准本科教育包括一到两个学期的线性代数,这对数据挖掘或模式识别的研究者来说是远远不够的。即使是对这些学科的出版物进行随意的审查,也能令人信服地展示出线性代数、优化、概率、函数分析和其他领域的相当复杂的工具的使用。线性代数及其应用领域在不断发展,本卷只是对终身学习的一个简单介绍。数学背景对于理解当前的数据挖掘和模式识别研究以及在这些学科进行研究是至关重要的。因此,这本书的构建旨在提供这种背景,并展示一系列的应用,吸引读者研究其数学基础。我们没有关注算法的数值方面,特别是错误敏感性,因为这个非常重要的主题已经在数值分析的大量文献中得到了处理,而且不特定于数据挖掘应用。我们讨论的数据挖掘应用包括k-means算法及其几种放宽版本、用于数据降维的主成分分析和奇异值分解、双坐标图、用于无监督和半监督学习的非负矩阵分解以及潜在语义索引。为这本书的第二版做准备涉及纠正现有的文本,大量的重写,并引入新的主要话题:张量、外代数和多维数组。预期的读者是从事数据挖掘和模式识别工作的研究生和研究者。我努力使这个卷册尽可能地自足。对应用感兴趣的读者将在本卷中找到目前所需的大部分数学背景。每一章的主要部分都支持很少的例行练习,而且还有600多个练习和补充材料。