数据挖掘与机器学习基础算法
数据挖掘和机器学习的基本算法构成了数据科学的基础,利用自动化方法分析各种数据的模式和模型,应用领域涵盖从科学发现到商业分析。本教材面向高级本科生和研究生课程,全面深入地概述了数据挖掘、机器学习和统计学,为学生、研究人员和实践者提供了扎实的指导。书中奠定了数据分析、模式挖掘、聚类、分类和回归的基础,重点介绍了算法以及其背后的代数、几何和概率概念。本书第二版新增了一个专门章节,讲解回归方法,包括神经网络和深度学习。 评论
‘Mohammed Zaki 和 Wagner Meira, Jr 编写的这本书是教授数据挖掘或数据科学课程的极佳选择。它涵盖了基础和高级数据挖掘主题,解释了数据科学的数学基础和算法,每章都有习题,并提供了数据、幻灯片及其他补充材料,供伴随网站使用。’ —— Gregory Piatetsky-Shapiro,计算机协会知识发现与数据挖掘特别兴趣小组(ACM SIGKDD)创始人 ‘世界级专家编写,提供了全面的数据挖掘主题内容,从基础统计学到基本方法(聚类、分类、频繁项集),再到高级方法(奇异值分解(SVD)、支持向量机(SVM)、核方法、谱图理论、深度学习)。对于每个概念,书中巧妙地平衡了直观理解、算术例子和严谨的数学细节。它既可以作为教材,也可以作为参考书。’ —— Christos Faloutsos,卡内基梅隆大学(Carnegie Mellon University),宾夕法尼亚州,ACM SIGKDD创新奖得主 书籍描述
《数据挖掘与机器学习基础算法》第二版新增了多个关于回归的章节,其中包括神经网络和深度学习。
近年来,AI在语言能力方面取得了惊人的进展。在深度学习快速发展的推动下,语言AI系统的文本生成与理解能力达到了前所未有的高度。这一趋势催生了新的功能、产品,甚至整个行业的兴起。通过本书,Python开发者将学习到如何利用这些强大功能的实用工具和概念。 您将学习如何利用预训练大型语言模型的强大功能,应用于诸如文案撰写和摘要生成等场景;创建超越关键词匹配的语义搜索系统;构建能够分类和聚类文本的系统,以实现对大量文档的可扩展理解;并使用现有的库和预训练模型进行文本分类、搜索和聚类。 本书还将向您展示如何: * 构建高级LLM(大型语言模型)管道,以聚类文本文档并探索其所属主题 * 构建语义搜索引擎,通过密集检索(dense retrieval)和重排序(reranking)等方法超越关键词搜索 * 探索这些模型在多种应用场景中的实际价值 * 理解如BERT和GPT等Transformer模型的底层架构 * 深入了解大型语言模型(LLM)是如何训练的 * 理解不同的微调方法如何针对特定应用优化LLM(生成模型微调、对比微调、上下文学习等)
这本开放获取的书籍回顾了非线性模型降阶在连续介质力学中的最新理论和数值进展,适合硕士和博士生以及研究人员、讲师和指导者阅读。作者旨在提供工具,以更好地理解并实现基于以下内容的降阶模型:基于物理的模型、这些模型预测的合成数据、实验数据以及深度学习算法。本书综述了应用于基于模型的工程和数字孪生的关键模型降阶方法,通过学习线性或非线性的潜在空间实现降阶。基于投影的降阶模型是将机械方程投影到从合成数据和实验数据中学习到的潜在空间中。书中的应用和综述章节展示了结构化数据在模型降维中的多种描述和表示。基于图像的数字孪生体在降阶的设置中被开发,实现了降阶模型的制造组件预测形状变化对机械效应的影响。类似的工作流程被扩展到多物理或耦合问题,具有高维输入字段。书中还提出了数据增强和超降阶的实用技术,后者是加速有限元模型投影降阶的关键点。本书提供了可在 gitlab.com 上获取的 Python 库,这些库是法国政府资助的 [FUI-25] MORDICUS 研究项目的一部分。类似于计算机视觉的深度学习,深度学习用于模型降阶无需在降阶模型之前设计参数化问题。这种方法对于基于图像的建模或多物理建模非常相关。
大型语言模型(LLMs)和生成式AI正在迅速改变医疗保健行业。 这些技术有望通过提高护理的效率、准确性和个性化来彻底改变医疗保健。这本实用书籍通过医疗领域的案例故事和说明性使用案例,展示了LLMs和生成式AI在当前及未来的潜力,适合医疗保健领导者、研究人员、数据科学家和AI工程师阅读。作者Kerrie Holley(前Google医疗保健专业人士)引领读者深入了解大型语言模型(LLMs)和生成式AI在医疗保健领域的变革潜力。书中涵盖了从个性化患者护理和临床决策支持到药物研发和公共健康应用的内容,全方位探讨了LLMs和生成式AI在医疗保健中的现实应用及未来可能性。通过本书,您将学到:
本书介绍了共形预测(Conformal Prediction)及其相关推断技术,这些技术建立在置换检验和可交换性基础之上,广泛应用于包括假设检验和为机器学习系统提供不确定性量化保证在内的多种任务。共形预测之所以受到广泛关注,是因为它能够无缝集成到复杂的机器学习工作流中,在不对数据生成分布形式作任何假设的情况下,解决了构建预测集的问题。由于现代机器学习算法通常难以直接分析,共形预测的主要吸引力在于它能够与这些方法配对,为有限样本提供正式的理论保证。
本书的目标是向读者介绍研究共形预测及其相关分布无关推断问题时所涉及的基本技术论证。这些证明策略(尤其是较新的部分)散见于不同的研究论文中,使得研究者难以确定应该参考哪些结果、哪些结论最为重要,以及这些证明具体是如何构造的。本书旨在弥合这一差距,通过整理我们认为文献中最重要的一些结果,并以统一的语言、配有插图的形式呈现这些证明,同时注重教学性。 需要注意的是,本书并不专注于如何在实践中应用共形预测。如果读者对更实用和面向应用的共形预测入门感兴趣,可以参考《共形预测:温和的介绍》(“Conformal Prediction: A Gentle Introduction”,Angelopoulos 等,2022年)。
本书主要面向从事统计理论和方法开发的读者,广义而言,包括对有限样本模型无关界感兴趣的经典统计学家,以及希望找到适用于不断变化的机器学习算法模块化理论的机器学习研究者。读者需要的背景知识一般相当于理论统计学研究生一年级课程的水平;尽管偶尔会涉及一些测度论,但本书的大部分内容并不依赖于它。 我们希望本书能够为读者提供对该领域理论基础的深入理解,从而帮助他们为共形预测及其他分布无关推断领域的持续理论发展做出贡献。
** 本书的范围**
在本章的介绍之后,第 I 部分的其余内容将从数学的角度介绍可交换性,并提供一份术语表,列出对本书后续统计结果有用的性质和事实。我们特别关注置换检验,因为共形预测可以被重新表述为置换检验的反转。这些工具对于本书后续的许多证明和直觉发展至关重要。
第 II 部分深入探讨共形预测框架。具体而言,我们讨论了完全共形预测(Full Conformal Prediction),这是对之前提到的分割共形预测方法的一个推广,揭示了其中的基本统计逻辑。随后,我们描述了比边际覆盖(Marginal Coverage)更强的性质,包括对各种方法的积极结果和一些表明在不做更多假设的情况下所面临限制的难解性结果。
第 III 部分聚焦于共形预测方法的广泛扩展。包括基于交叉验证的共形预测方法、允许超越独立同分布(i.i.d.)假设的加权共形预测方法、为流数据设计的在线共形方法,以及用于加速共形预测的计算捷径。我们还简要介绍了一些额外主题,例如能够处理更广泛风险定义的共形预测变体,以及与选择性推断、多重检验和模型集成的关联。这些主题是该领域近期工作的缩影,暗示了许多可以继续研究的方向。 最后,在第 IV 部分,我们从预测推断的重点中转移,研究分布无关推断在其他问题上的应用。这些问题包括回归函数估计、概率估计的校准,以及条件独立性的检验。