书籍简介
通过这本实用的操作手册,学习使用生成式人工智能技术创建新颖的文本、图像、音频甚至音乐。读者将理解最先进的生成模型是如何工作的,如何对其进行微调和适应以满足个人需求,以及如何结合现有的构建块创造新的模型和跨领域的创意应用。 本书从理论概念介绍开始,紧接着是指导性的实践应用,包含丰富的代码示例和易于理解的插图。你将学习如何使用开源库来利用变换器和扩散模型,进行代码探索,并研究若干现有项目,以帮助指导你的工作。 * 构建和定制能够生成文本和图像的模型 * 探索使用预训练模型与微调自定义模型之间的权衡 * 创建和使用能够生成、编辑和修改任意风格图像的模型 * 为多种创意用途定制变换器和扩散模型 * 训练能够体现你个人风格的模型
作者介绍
Omar Sanseviero 是 Hugging Face 的首席 Llama 官员及平台与社区负责人,领导开发者倡导工程、设备端和月球项目团队。Omar 拥有丰富的工程经验,曾在 Google 的 Google Assistant 和 TensorFlow Graphics 团队工作。Omar 在 Hugging Face 的工作处于开源、产品、研究和技术社区的交汇点。 Pedro Cuenca 是 Hugging Face 的机器学习工程师,负责扩散软件、模型和应用程序。他在互联网应用领域有超过 20 年的开发经验(在西班牙,他参与创建了第一个互动教育门户、第一家网上书店和第一家免费互联网服务提供商)。近年来,他专注于 iOS 开发。作为 LateNiteSoft 的联合创始人兼首席技术官,他开发了成功的 iPhone 摄影应用 Camera+,并为诸如摄影增强和超分辨率等任务创建了深度学习模型。他还参与了 dalle-mini 背后的开发和运营工作。他带来了将人工智能研究融入现实世界服务中的实际愿景,以及其中的挑战与优化。 Apolinário Passos 是 Hugging Face 的机器学习艺术工程师,跨不同团队工作,涉及多个机器学习在艺术与创意领域的应用场景。Apolinário 拥有超过 10 年的专业与艺术经验,曾在举办艺术展览、编程和产品管理之间交替工作,曾担任 World Data Lab 的产品负责人。Apolinário 旨在确保机器学习生态系统能支持并使艺术应用场景变得有意义。 Jonathan Whitaker 是一名数据科学家和深度学习研究员,专注于生成建模。此前,他曾参与与本书所涵盖主题相关的多个课程,包括 Hugging Face 的扩散模型课程,以及他与 Jeremy Howard 在 2022 年共同创建的 Fast.AI 课程《从深度学习基础到稳定扩散》。他还曾在行业中应用这些技术,担任顾问工作,目前全职从事 Answer.AI 的人工智能研究与开发。
《多智能体强化学习(MARL)的全面介绍》《多智能体强化学习(MARL)》是机器学习领域中的一个重要分支,涉及一群智能体在共享环境中学习如何进行最优互动。它在现代生活中应用广泛,从自动驾驶、多人机器人工厂到自动化交易和能源网络管理等。本书提供了一个清晰且严谨的多智能体强化学习(MARL)介绍,涵盖了MARL的模型、解决方案概念、算法思想、技术挑战以及现代方法。本书首先介绍了该领域的基础,包括强化学习理论和算法的基础、交互式游戏模型、各种游戏的解决方案概念以及支撑MARL研究的算法思想。接着详细讲解了利用深度学习技术的现代MARL算法,涵盖了集中训练与分散执行、价值分解、参数共享、自对弈等重要思想。本书附带了一个用Python编写的MARL代码库,包含了自包含且易于阅读的MARL算法实现。技术内容采用通俗易懂的语言解释,并通过大量示例进行说明,使新手能够理解MARL,同时也为更高级的读者提供了高水平的洞察。
想象一个场景,在这个场景中,一个由自主智能体组成的集体,每个智能体都有能力做出自己的决定,他们必须在一个共享环境中互动,以达成某些目标。这些智能体可能有一个共享的目标,比如一个移动机器人的车队,其任务是在一个大型仓库内收集和运送货物,或者一个负责监控海上石油钻井平台的无人机队伍。智能体也可能有冲突的目标,比如在一个虚拟市场上交易商品的智能体,每个智能体都试图最大化自己的收益。由于我们可能不知道这些智能体应该如何互动以达成他们的目标,所以我们让他们自己去解决。因此,这些智能体开始在他们的环境中尝试行动,并收集关于环境如何随着他们的行动而变化,以及其他智能体如何行为的经验。随着时间的推移,这些智能体开始学习各种概念,如解决任务所需的技能,以及重要的,如何与其他智能体协调他们的行动。他们甚至可能学会发展一种共享的语言,以便智能体之间的通信。最后,这些智能体达到了一定的熟练程度,成为了互动优化以达成他们目标的专家。这个令人兴奋的愿景,简而言之,就是多智能体强化学习(MARL)希望达成的目标。MARL基于强化学习(RL),在这种学习中,智能体通过尝试行动和接收奖励来学习最优决策策略,目标是选择能在时间内最大化累积奖励的行动。而在单一智能体的RL中,重点是为单一智能体学习最优策略,在MARL中,重点是为多个智能体学习最优策略以及在这个学习过程中出现的独特挑战。在这第一章中,我们将开始概述MARL中的一些基础概念和挑战。我们首先介绍多智能体系统的概念,这是由环境、环境中的智能体及其目标定义的。然后我们讨论了MARL如何在这样的系统中运作以学习智能体的最优策略,并通过一些潜在应用的例子来说明。接下来我们讨论了MARL中的一些关键挑战,如非稳定性和均衡选择问题,以及几种描述MARL可以如何使用的不同“议程”。在本章的结尾,我们对这本书的两部分中涵盖的主题进行了概述。多智能体强化学习(MARL)算法为多智能体系统中的一组智能体学习最优策略。与单一智能体的情况一样,这些策略是通过试错过程来学习的,目标是最大化智能体的累积奖励,或者说回报。图1.3显示了MARL训练循环的基本示意图。一组n个智能体选择个体行动,这些行动一起被称为联合行动。联合行动按照环境动态改变了环境的状态,并且智能体由于这种变化收到个体奖励,同时也对新环境状态有个体观察。这个循环持续进行,直到满足终止条件(比如一位智能体赢得了一场象棋比赛)或无限期地进行。这个循环从初始状态到终止状态的完整运行被称为一个情节。通过多个独立情节产生的数据,即每个情节中经历的观察、行动和奖励,被用来持续改进智能体的策略。
这本书为大学生、研究者和从业者提供了关于多智能体强化学习理论和实践的介绍。在这个引言章节之后,本书的剩余部分分为两部分。本书的第一部分提供了关于MARL中使用的基本模型和概念的基础知识。具体来说,第二章对单一智能体RL的理论和表格算法进行了介绍。第三章介绍了基本的游戏模型,以定义多智能体环境中的状态、行动、观察和奖励等概念。然后,第四章介绍了一系列解决概念,这些概念定义了解决这些游戏模型意味着什么;也就是说,智能体如何最优地行动意味着什么。最后,第五章介绍了在游戏中应用MARL来计算解决方案时的一些基础算法思想和挑战。本书的第二部分侧重于当代利用深度学习技术创建新的强大MARL算法的MARL研究。我们首先在第六章和第七章分别对深度学习和深度强化学习进行了介绍。基于前两章,第八章介绍了近年来开发的一些最重要的MARL算法,包括集中化训练与分散化执行、价值分解和参数共享等思想。第九章在实施和使用MARL算法以及如何评估学习到的策略时提供了实用指导。最后,第十章描述了在MARL研究中开发的一些多智能体环境的例子。 这本书的一个目标是为想在实践中使用本书中讨论的MARL算法,以及开发他们自己的算法的读者提供一个起点。因此,这本书配有自己的MARL代码库(可从书籍网站下载),该代码库使用Python编程语言开发,提供了许多现有的MARL算法的实现,这些实现是自包含的,易于阅读。第九章使用代码库中的代码片段来解释早些章节中提出的算法背后的重要概念的实现细节。我们希望所提供的代码能够帮助读者理解MARL算法,并开始在实践中使用它们。
本手稿提供了一个全面、最新的强化学习(深度强化学习)与序列决策制定领域的概述,涵盖了基于值的方法、策略梯度方法、基于模型的方法以及其他多个主题(包括对强化学习与大语言模型(RL+LLMs)的简要讨论)。
文章旨在提供一个强化学习领域的全面概览,包含了来自Murphy先前教科书章节的内容,并添加了大量新资料。
1.1 顺序决策制定:定义了问题,介绍了通用模型,区分了情节任务与连续任务,并讨论了遗憾的概念。 * 1.2 典型示例:包括部分观测MDPs、上下文MDPs、上下文Bandits、信念状态MDPs和优化问题等实例。 * 1.3 强化学习:分为基于价值的RL(近似动态规划)、基于策略的RL、基于模型的RL,并探讨了如何处理部分可观察性的问题。
文章涵盖了强化学习的基础概念、经典示例以及不同的学习方法,如: * 基于价值的方法(Value-based RL) * 基于策略的方法(Policy-based RL) * 基于模型的方法(Model-based RL)
此外,还深入讨论了各种应用领域和技术进步,例如深度强化学习中的树结构模型(TreeQN)、用于离线强化学习的极简方法、信任区域策略优化(TRPO)、优先经验回放(Prioritized Experience Replay)、通用优势估计(Generalized Advantage Estimation)、近端策略优化算法(PPO),以及其他最新的研究成果和技术进展。
文中引用了许多研究工作来展示强化学习在不同场景下的应用,比如使用深度神经网络进行连续控制、通过内在动机加速学习过程、结合语言模型实现世界建模等。同时,也提到了一些重要的技术发展,如DQN、DDPG、TD3、SAC等算法的发展及其对解决复杂环境问题的影响。 总之,这篇文章为读者提供了一个理解强化学习基本原理及其最新发展的全面视角,适合希望深入了解这一领域的研究人员和从业者阅读。
这本书由MIT Press出版,属于我所编辑的系列(正如预期,他们在整个过程中给予了我极大的支持)。它可以从我的个人网页上免费在线阅读,但当然,您也可以从您喜欢的在线商店购买纸质版(请查看这里的链接),这样您就可以为我下一辆公路自行车的购买做出贡献(对于法国的读者,amazon.fr 和 fnac.com 也有售,许多国家的主要在线商店也应该有销售)。 除了PDF和纸质版外,所有图形都可以通过Python和Matlab代码进行复现,相关代码可以在这里找到(我计划未来加入Julia版本)。我已经开始收集涵盖所有章节的练习题解答(在这里可以找到,注意:工作进行中)。如果您想贡献解答、指出错别字或提出改进建议,我将不胜感激(请给我发电子邮件)。未来,我可能会加入一些历史部分,这些内容我决定暂时放弃,因为这会花费我更多的时间(如果您有相关的指引或建议,欢迎告知我)。
为什么要再写一本关于学习理论的书?
市面上已经有很多优秀的学习理论书籍了。为什么我还要写一本新书呢?请阅读书的前言(在文章的末尾会展示),那里列出了几个原因,但主要的原因是,我觉得当前机器学习数学分析的趋势导致了一些过于复杂的论证和结果,这些内容往往对实践者并不直接相关。因此,我的目标是提出从基本原理出发,能够推导出来的最简单的表述,尽量保持严谨,但又不让读者感到被更多的高深结果淹没,这些结果需要过多的数学复杂性。我已经尽力而为,但我相信总有一些地方可以提出更简洁的论证;如果您发现了,欢迎告知我。此外,我还尝试通过一系列简单的实验,将理论结果与实际性能结合起来。
这本书的一个重要特色是它专注于实值预测函数:即使在预测离散值输出时,实值预测函数已经成为现代机器学习技术的事实标准。因此,尽管Vapnik-Chervonenkis维度在历史上有着举足轻重的地位,我决定不在书中呈现它,而是直接基于Rademacher复杂度推导我的通用界限。专注于实值预测函数使得最小二乘回归成为理论的核心部分,这对于学生来说非常重要,因为许多机器学习中的重要概念(如正则化、随机算法)已经在简化的形式中得到了体现。
在我所涉及的众多主题中,一些采用了标准的处理方式,但有些可能值得引起有经验的读者的注意(我可能会在未来写一些博客文章来进一步探讨这些内容)。下面是我对每一章的几点印象: 第一章(数学预备知识):这一章没有什么特别复杂的内容,主要介绍了一些有用的计算技巧和主要的浓度不等式。一些内容已经在博客中讨论过,例如Jensen不等式、矩阵的浓度不等式,或者将在未来发布(如矩阵逆定理)。 第二章(监督学习简介):本章集中讨论了监督学习的传统决策理论表述,包括损失、风险等内容。我加入了Luc Devroye(1982)提出的“无免费午餐定理”,因为我认为它很好地展示了没有假设的情况下,学习是无法实现的。 第三章(线性最小二乘回归):无论这个古老的方法起源于Legendre还是Gauss,这并不重要。我认为它仍然非常重要,因为它已经囊括了许多经典的机器学习概念,尤其是正则化的需求,以避免在d/nd/nd/n(其中n是观测数,d是参数数目)中出现收敛率。因此,这已经能传达一个信息:参数的数量通常不是衡量学习方法泛化能力的最佳方式。 第四章(经验风险最小化):本章首先广泛(但传统地)讨论了用于二分类问题的凸代理函数(这将在第十三章中扩展为结构化预测)。对于凸损失函数,首先采用约束优化方法进行正则化估计(因为这较为简单),但为了避免理论与实践之间的显著差异,我专门添加了一节关于惩罚估计的方法,其中包含了一些简单的(其中一些是新的)通用界限。 第五章(优化):将所有内容压缩进一章很困难(不过我有些许“作弊”,因为我在第十一章中关于在线学习的内容留下了一些精彩的部分!)。从二次问题开始,通过线性代数推导梯度下降的收敛性,接着介绍了凸优化的标准工具,然后统一呈现了随机逼近法,并重点讨论了随机梯度下降的自然测试误差性能。同时也介绍了方差减少方法,提供了我所能找到的最简单证明。 第六章(局部平均方法):k近邻预测方法有些过时,但它是可以适应任何预测函数的最简单方法(也最容易向您的祖父母解释)。在这一部分,我重新使用了Gérard Biau和Luc Devroye在2015年书中的交换性论证方法,得到了简单的界限,且假设条件很少。对于Nadaraya-Watson估计量(例如,核回归),我用Bernstein不等式给出了一个简单的证明。 第七章(核方法):这也是一个相对密集的章节,我主要关注Sobolev空间,以便能够刻画对平滑性的适应性。对于Lipschitz连续的损失函数,只需要刻画逼近误差,我成功避免了积分算子。对于平方损失,我复用了Jaouad Mourtada和Lorenzo Rosasco的优美证明方法,得出了特别简单的期望值界限。 第八章(稀疏方法):在这一章中,我特别关注平方损失,并复用了Philippe Rigollet和Sacha Tsybakov的证明技术,这些方法适用于约束或惩罚估计,从而得到了著名的σ2klogdn\frac{\sigma^2 k \log d}{n}nσ2klogd结果。在简要介绍了统计文献中常见的固定设计处理(并列举了设计矩阵的各种条件)后,我专注于随机设计方法,通过强凸性可以合理简单地获得较快的收敛速度。 第九章(神经网络):我选择只介绍单隐层神经网络,在这种设置下,估计误差和优化误差的性质可以得到精确的表述,特别关注其对线性潜变量的适应性。同样,隐藏神经元的数量不是潜在的泛化能力的关键驱动因素。我还明确地将神经网络与核方法和随机特征的联系(即只优化最后一层权重)做了联系。这一“经典”的处理方法在后面一章关于过参数化模型的讨论中得到了补充。 第十章(集成学习):这一章基本上分为两个独立部分,第一部分讨论了bagging和随机投影,介绍了经典的高斯随机投影,并扩展到非线性预测。第二部分讨论了boosting,试图统一不同领域的算法,如匹配追踪和Adaboost,并给出了boosting性能的显式新证明,而没有额外的正则化假设。虽然速率不是最优的,但这与实践中采用的(通过早期停止进行的)正则化方法更加接近。这里可能还有更锋利的结果。 第十一章(从在线学习到强盗问题):这一章仅涉及了更广泛主题的皮毛,但对于在线学习,我明确展示了其与经典随机优化的区别,并采用统一符号表示(这也是我插入镜像下降法的地方)。我用十页自包含的内容描述了多臂强盗问题;虽然简短,但足以捕捉主要思想,以及它与更经典监督学习方法的相似性和不同之处。 第十二章(过参数化模型):这一章更接近研究方向,我尝试以最简明的方式描述关于过参数化模型的最新重要成果,如梯度下降的全局收敛性、凸问题和非凸问题的隐性偏差(对于对角线线性网络),双重下降(分别提供了关于高斯数据和随机投影的简单和不那么简单的论证),以及懒学习。 第十三章(结构化预测):这一章包含了最近的研究成果,首先讨论了多类别分类,重点是多变量预测函数及其关联的泛化性质(在此,随机梯度下降比通过Rademacher平均得到的经验风险最小化结果给出了更好的界限)。接着,我以统一的方式呈现了关于预测复杂输出的最新文献,采用凸代理函数,从二次、平滑到非平滑代理函数依次讨论。 第十四章(概率方法):我首先回顾了几种学习方法的概率建模解释,主要关注通过识别损失和先验与对数密度之间的关系,明确区分了这种类比带来的优势与其局限性(特别是,像ℓ1\ell_1ℓ1-最小化这样的稀疏方法不适用于来自其负对数密度为ℓ1\ell_1ℓ1-范数的分布的数据)。接着,我们展示了贝叶斯推断如何自然地引导模型选择标准,并以描述PAC-贝叶斯分析结束本章,引用了Pierre Alquier的最新专著。 第十五章(泛化和优化误差的下界):从研究的角度来看,我更倾向于通过设计和分析快速算法来贡献性能的上界,但我不得不承认,下界同样重要(特别是当它们与上界一致时)。本章讨论了优化下界(通常呈现了难以优化的函数,主要来源于Yurii Nesterov的工作),以及统计下界(其中我使用了信息论的论证)。对于随机梯度下降,我复用了Agarwal等人(2012)提出的优美证明技巧。
数据已经渗透到科学、工程、工业和个人生活的各个领域,带来了对自动化处理的需求。机器学习致力于从训练样本中进行预测,广泛应用于各个领域,包括大大小小的问题,并使用从简单的线性模型到深度神经网络等多种学习模型。如今,它已经成为算法工具箱中的一个重要部分。 如何理解这些实际成功的背后?我们能否提炼出一些原则,以理解当前的学习方法,并指导新技术的设计,适应新应用或新的计算环境?这正是学习理论的目标。除了已经非常丰富且有趣的数学性质(因为它引入了许多数学领域的内容),大多数在实践中观察到的行为,原则上都可以通过足够的努力和理想化来理解。反过来,一旦理解了这些行为,我们可以做出适当的修改,获得更大的成功。
本教材的目标是呈现学习理论中的旧有和最新成果,专注于目前最广泛使用的学习架构。通过这种方式,本书阐述了几项原则,帮助读者理解过拟合和欠拟合现象,并系统地展示了分析中的三个组成部分:估计误差、逼近误差和优化误差。此外,本书的目标不仅仅是展示学习方法在足够的数据下能够进行学习,还力图理解它们学习的速度(或慢速),特别关注如何通过适应特定结构加速学习过程(例如预测函数的平滑性或对低维子空间的依赖)。 本书适合理论导向的学生,以及那些希望获得机器学习及其相关领域(如计算机视觉和自然语言处理)所使用算法的基本数学理解的学生。此外,对于那些来自应用数学或计算机科学其他领域的学生和研究人员,也非常适合他们学习机器学习背后的理论。最后,由于本书汇集了许多简单的证明,它还可以作为理论机器学习研究人员的参考书。 本书将特别努力从第一原理证明许多结果,同时尽可能保持内容的简洁。这自然会导致选择一些关键结果,以展示学习理论中最重要的概念,并通过简单但相关的实例进行说明。书中也会呈现一些没有证明的通用结果。当然,第一原理的概念是主观的,我假设读者已经掌握了线性代数、概率论和微积分等基本知识。 此外,我将专注于学习理论中的一部分,特别是那些可以在实践中运行的算法。因此,本书中描述的所有算法框架都是日常使用的。由于许多现代学习方法基于优化,书中的第五章专门讨论这一主题。对于大多数学习方法,我展示了一些简单的示范实验,并提供了相应的代码(目前是MATLAB和Python,未来将包含Julia),以便学生自己查看这些算法在合成实验中的简洁性和有效性。书中的习题目前没有提供解答,目的是帮助学生更好地理解相关的材料。 最后,书的第三部分将深入讨论现代专题,如在线学习、集成学习、结构化预测和过参数化模型。
请注意,这本书并不是一本机器学习的入门教材。市面上已经有几本优秀的教材(例如,Alpaydin 2020年、Lindholm等 2022年、Azencott 2019年、Alpaydin 2022年)。本书侧重于学习理论——即为最广泛使用的学习算法推导数学保证,并刻画使特定算法框架成功的因素。特别是鉴于许多现代方法基于优化算法,本书对基于梯度的方法及其与机器学习的关系给予了较大关注。 本书的一个关键目标是,从最简单的结果入手,使其更易理解,而不是集中于更高级的材料,这些内容在初学时可能过于复杂,且提供的理解提升可能非常有限。在整本书中,我们提供了许多现代研究工作的参考,供读者深入了解。
本书分为三大部分:导言、核心部分和专题部分。读者应当先阅读前两部分,以全面理解主要概念,之后可以根据需要在第二次阅读时选择性阅读专题部分的章节,或者在两学期的课程中学习。 每章都以概述将要讨论的主要概念和结果开始。所有的模拟实验可以在https://www.di.ens.fr/~fbach/ltfp/上找到,并提供MATLAB和Python代码。书中提供了大量的习题,嵌入在正文中,并用专门的段落标出,个别习题在文中提到(例如,“证明留作练习”)。这些习题旨在帮助学生加深对相关材料的理解,提出扩展或应用。 本书并未涵盖所有主题,也没有对许多其他内容进行深入探讨。市面上已有许多优秀的学习理论教材,涵盖更广泛或更深入的内容(例如,Christmann 和 Steinwart 2008年;Koltchinskii 2011年;Mohri等 2018年;Shalev-Shwartz 和 Ben-David 2014年)。同时,还可以参考Alexander Rakhlin 和 Karthik Sridharan,以及Michael Wolf的精彩笔记。 特别地,本书主要聚焦于实值预测函数,因为它已成为现代机器学习技术的事实标准,即使在预测离散值输出时也适用。因此,尽管Vapnik-Chervonenkis维度在历史上的重要性和影响至关重要,我决定不在本书中介绍它,而是基于Rademacher复杂性直接推导通用界限。专注于实值预测函数使得最小二乘回归成为本书理论的核心内容,这对于学生来说非常有意义。此外,这也为与相关的统计学文献建立联系提供了便利。 一些领域,如在线学习或概率方法,在本书中被简要描述,以便与经典理论建立联系,并鼓励读者通过专门的书籍进一步学习。在本书中,我还包括了第12章关于过参数化模型和第13章关于结构化预测,这些内容介绍了机器学习中的现代专题。更广泛地讲,第三部分(专题部分)的目标是,在每一章中介绍新概念,同时保持与核心内容的联系,并使用统一的符号表示。
前九章(按顺序,不包括“钻石部分”)适合于一学期的高年级本科或研究生课程,在进行过机器学习的入门课程后阅读。接下来的六章大多可以按任意顺序阅读,用于加深对某些专题的理解;它们可以作为作业(通过习题)阅读,或在较长的(例如两学期)课程中教授。本书的设计也便于自学,前九章按顺序阅读,最后六章则可以随机阅读。在任何情况下,第1章关于数学预备知识的部分可以快速阅读,之后在相关章节需要时深入学习相关概念。
http://www.hutter1.net/ai/uaibook2.htm 这本书提供了对普适人工智能(UAI)的温和介绍,UAI 是一种理论,为智能体在未知环境中进行智能行为提供了形式化的基础。UAI 最早在 [Hut00, Hut05b] 中提出,提供了一个框架,在这个框架中,几乎所有其他的人工智能问题都可以被表述,并且可以提出相应的解决理论。UAI 结合了顺序决策理论、贝叶斯推理和算法信息理论的思想,构建了 AIXI,这是一种最优的强化学习智能体,能够在未知环境中学习如何做出最优决策。AIXI 是智能行为的理论黄金标准。 本书涵盖了 UAI 的理论与实践两个方面。通过上下文树加权(Context Tree Weighting,CTW)可以高效地进行贝叶斯更新,规划则可以通过蒙特卡洛树搜索(Monte Carlo Tree Search)进行近似。本书提供了可供读者实现的算法,以及与之进行比较的实验结果。这些算法用于逼近 AIXI。本书最后通过哲学讨论人工通用智能(Artificial General Intelligence, AGI)问题进行总结:智能体是否真的能够被构造出来?它们的构造是否不可避免?它们被构造出来的潜在后果是什么?
第一章首先概述了人工智能(AI)问题,并解释了我们为何希望解决这个问题。然后,我们非正式地介绍了普适人工智能(UAI)方法,以及这种方法与其他解决 AI 问题的方案相比所具有的各种优势。第二章介绍了数学背景和必要的前置知识,包括(贝叶斯)概率论与统计学、信息论、可计算性理论以及(算法)信息论。
第三章讨论了算法预测的问题。具体而言,我们提供了关于普适贝叶斯混合(universal Bayesian mixture)理论结果,并展示了它是如何从理论上解决预测问题的。贝叶斯混合的一个缺点是它的计算可能非常复杂。第四章提供了一个连贯的解释,介绍了一种实用且可实现的算法——上下文树加权(CTW),该算法用于计算贝叶斯混合并进行预测。第五章进一步扩展了 CTW 算法,允许进行更一般的预测。
第六章介绍了基于历史的强化学习框架,并展示了如何在这个框架中捕捉 AI 问题。第七章提供了强化学习问题的贝叶斯解决方案——AIXI,并证明它是最智能的智能体。第八章讨论了在一般强化学习框架中的各种最优性度量和概念,并阐述了为何某些最优性概念可能比其他概念更受偏爱。第九章介绍了普适智能体的家族,其中许多是 AIXI 智能体的扩展和变体,并解释了这些智能体如何扩展 UAI 理论。第十章引入了博弈论的概念,并解释了它们如何应用于多智能体视角下的强化学习问题。特别是,提出了解决“真理之粒”问题的方法。
第十一章描述了 AIXI 智能体的一个简单逼近方法,该方法能够学习并玩简单游戏。第十二章进一步介绍了一种更复杂的 AIXI 逼近方法,基于 CTW 算法和蒙特卡洛树搜索(Monte Carlo Tree Search),该方法能够在更复杂的游戏中表现良好。我们还提供了其他一些被提出的 AIXI 和 UAI 的逼近算法,并通过讨论它们的优缺点来激励这些算法的提出。第十三章探讨了普适智能体的(不可)计算性,并提出了最接近的可计算 AIXI 逼近——AIXItl。
第十四章深入探讨了解决一般强化学习问题的替代方法——特征强化学习(Feature Reinforcement Learning)。我们展示了从理论和实践的角度来看,采用这种方法是非常有吸引力的。
第十五章概述了与安全构建超级智能体相关的诸多问题,并探讨了如何在 UAI 框架内研究这些问题。我们讨论了在 UAI 框架中提出的、可以解决这些问题的一些潜在解决方案。第十六章讨论了迄今为止所涉及的许多哲学问题,包括支持与反对人工通用智能(AGI)可能存在的论点,以及智能本身的哲学与数学问题。 内容: * Part I: Introduction * Part II: Algorithmic Prediction * Part III: A Family of Universal Agents * Part IV: Approximating Universal Agents * Part V: Alternative Approaches * Part VI: Safety and Discussion
最小化AI幻觉,构建准确的自定义生成式AI管道,利用嵌入式向量数据库和集成的人类反馈来实现检索增强生成(RAG) 购买本书的纸质版或Kindle版即包含免费的PDF格式电子书
基于RAG的生成式AI 提供了构建有效的LLM(大语言模型)、计算机视觉和生成式AI系统的路线图,平衡了性能与成本。 本书详细探讨了RAG及其设计、管理和控制多模态AI管道的方式。通过将输出与可追溯的源文档连接,RAG提高了输出的准确性和上下文相关性,提供了一种动态方法来管理大量信息。该书向您展示了如何构建RAG框架,提供有关向量存储、分块、索引和排名的实用知识。您将发现优化项目性能的技巧,并更好地理解您的数据,包括使用自适应RAG和人类反馈来提高检索准确性、平衡RAG与微调、实施动态RAG以增强实时决策以及通过知识图谱可视化复杂数据。 您将接触到诸如LlamaIndex和Deep Lake这样的框架,Pinecone和Chroma等向量数据库,以及Hugging Face和OpenAI的模型。本书结束时,您将掌握实施智能解决方案的技能,使您在从生产到客户服务的各个项目中保持竞争力。
本书适合数据科学家、AI工程师、机器学习工程师和MLOps工程师。如果您是解决方案架构师、软件开发人员、产品经理或项目经理,想要提升构建RAG应用程序的决策过程,那么本书将对您非常有帮助。
“本书以实践为导向,提供了从基础概念到复杂实现的清晰路径。它对RAG概念的详细解释和真实世界代码实现使得它对初学者和经验丰富的专业人士都非常可读。 一个显著的亮点是本书对扩展RAG系统的挑战的独特见解,并提供了关于如何管理大数据集、优化查询性能和控制成本的实际指导。此外,关于模块化RAG和微调的章节提供了可操作的策略,这些策略与我在构建基于对话AI和RAG的AI驱动的心理健康管理应用中的经验高度契合。书中对人类反馈的重视也非常重要,它展示了专家输入如何优化数据,增强AI响应的可靠性,使AI输出与人类价值对齐。 本书对性能优化的见解以及人类反馈的集成使它在该领域成为一个突出的资源。” —— Harsha Srivatsa,Stealth AI创始人兼AI产品负责人,前Apple和Accenture员工 “本书提供了一个极为全面的深入探讨,涵盖了从多模态数据类型和各种RAG架构到像评估、知识图谱以及人类反馈微调等高级话题。 真正值得称道的是,Rothman能够无缝地解释复杂的概念,使得材料对各个层次的读者都既可读又富有洞察力。无论您是想构建端到端的RAG解决方案,还是只是想增强对前沿AI系统的理解,本书都将通过其全面且实用的内容深化您的知识,并涵盖多个不同的应用场景。” —— Surnjani Djoko,博士,SVP,专门从事ML/AI的领导者,USPBA创新实验室负责人
Denis Rothman毕业于索邦大学和巴黎第七大学,在学生时期,他编写并注册了早期的word2vector嵌入和word piece标记化解决方案的专利。他创办了一家公司,专注于部署AI,并成为了第一批AI认知NLP聊天机器人之一的作者,该聊天机器人被用作Moët et Chandon(LVMH的一部分)等语言教学工具。Denis迅速成为了解释性AI的专家,将可解释、基于接受的数据和接口整合进实施的解决方案中,涵盖了航空航天、服装和供应链等重要企业项目。他的核心信念是,只有当你教会别人如何做某件事时,你才能真正理解它。
书籍简介
过去十年,由于因果推断在生物医学研究、社会科学、人工智能等领域的广泛应用,因果推断研究与教育引起了极大的关注。本教材基于作者在加利福尼亚大学伯克利分校教授的因果推断课程,过去七年来积累的教学经验,要求读者具备基础的概率论、统计推断、线性回归和逻辑回归知识。书中假设读者对因果推断的了解较少,并在附录中回顾了基本的概率和统计概念。本书从统计学角度讲解因果推断,并包括来自生物统计学和计量经济学的示例与应用。 主要特点:
所有R代码和数据集可在哈佛数据平台(Harvard Dataverse)获取。 * 为教师提供解答手册。 * 包含100多个习题。 * 本书适合高级本科生或研究生层次的因果推断课程,亦适用于统计学和生物统计学系的博士后及博士生课程。
书评
“这本书提供了统计学家对因果推断的视角,对从观察数据中推断因果关系的统计悖论进行了宝贵的回顾,并将这些悖论与Pearl的有向无环图(DAGs)联系起来。关于匹配的文献概述是我见过的最好的,书中包含的R代码也是一个巨大的优势。这本书将是高级本科生和硕士项目中因果推断的极好入门教材。” —— 布莱恩·道德教授,美国明尼阿波利斯大学 《因果推断入门》由彭丁所著,作为该领域的权威,本书的技术水平使其区别于现有的因果推断教材。对于具有良好数学和统计学背景的公共卫生、医学和社会科学领域的学生和研究人员来说,这本书将是一本宝贵的资源。书中的习题引导读者通过重要的结果,附录复习了关键的数学和统计概念,并包含了精心编写的R代码,极大地帮助理论转化为实践。” —— 埃本·凯纳教授,美国俄亥俄州立大学 “彭丁教授在这本书中做了一件令人印象深刻的事情——为因果推断提供了一个清晰、精准且全面的介绍。这本书是任何有兴趣理解因果推断的人必备之作。我强烈推荐。” —— 雨果·贾勒斯教授,美国雪城大学麦克斯韦公民与公共事务学院 作者简介
彭丁是加利福尼亚大学伯克利分校统计学系的副教授。他的研究主要集中在因果推断及其应用领域。
气候变化和资源的过度使用严重影响着全世界人类的福祉,并导致安全风险和冲突不断增加(Scheffrena & Battaglini,2011 年)。虽然气候变化的影响是全球性的,但其对获取食物、水、能源和基础设施的影响以及相关的安全风险在世界不同地区存在很大差异(Rockström 等人,2023 年;Scheffrena & Battaglini,2011 年)。如图 0.1 所示(摘自 Rockström 等人,2023 年;Scheffrena & Battaglini,2011 年),气候变化影响的许多热点地区都位于中东、阿富汗和乌克兰等冲突地区。这些冲突地区的资源稀缺往往会加剧紧张局势,使冲突恶化,敌对派别还可能利用资源稀缺向当地居民施压(Middendorp,2023 年;Scheffrena & Battaglini,2011 年)。此外,气候变化增加了自然灾害的风险(Ghazali 等人,2018 年;Aalst,2006 年)。这些自然灾害给军队和当地居民带来了安全挑战(Aalst,2006;Scheffrena & Battaglini,2011)。因此,气候与安全直接相互影响,因此军方需要了解气候与安全的关系,以及如何通过设计气候安全战略来促进适应和缓解。
图 0.1. 地球系统边界局部越界数量概览,表明世界上受气候、自然生态系统、水系统、营养循环和大气系统变化影响最严重的地区。
本书从军事角度回顾了气候与安全的关系,并提出了气候安全战略的设计以及如何为适应和缓解相关挑战做出贡献。第 1 部分回顾了对气候与安全关系的理解。第 2 部分评估了气候安全战略的潜在设计。第 3 部分回顾了军队对气候变化的适应。最后,第 4 部分从陆地、海上、空中行动以及太阳能地球工程的角度讨论了军队对减缓气候变化的潜在贡献。通过分析气候对全球安全和军事行动的影响,本书就气候安全和军事的相互影响提供了一个独特且亟需的视角,并为适应和缓解由此带来的挑战提供了建议。
第一部分从丰富的军事经验、灾害研究、气候情报和小武器价格等角度分析了气候与安全的关系。在第一章中,荷兰前国防参谋长汤姆-米登多尔普(Tom Middendorp)通过访谈强调了气候变化、安全和军事之间的主要联系,并概述了气候变化对地缘政治和地方的影响以及军队在适应气候变化中的作用。第 2 章回顾了过去五十年灾害研究的主要范式转变和应吸取的经验教训,并强调了气候安全自身的一些特点。第 3 章概述了气候情报。文章强调了额外军事任务的潜在范围和方法,以支持气候情报的数据收集,以及将气候情报能力整合到国防和其他领域。第 4 章通过小武器价格与气候事件之间的相关性,探讨了重大干旱与地方冲突可能性之间的关系,并指出干旱发生后地方冲突和武器价格会上升,但仅限于脆弱国家。最后,本部分通过经验、情报、灾害研究和数据分析,对气候与安全之间的关系进行了广泛回顾。
第二部分分五章讨论气候安全战略和政策的设计及其所需的伙伴关系。第 5 章提出了一个气候安全干预框架,以支持业务和战略决策。该框架以广泛的研究为基础,采用了基于综合和多层次利益相关者方法的实施逻辑,并在伊拉克的案例研究中得到了验证。随后,第 6 章分析了荷兰的战略和政策如何应对气候安全问题。然后,它建议将气候安全纳入发展、外交和防务(3D)活动,作为3D方法的一个组成部分,并在国际气候行动中考虑气候安全和冲突风险。第 7 章探讨了气候误报的影响,回顾了另一种因果校正方法对尽量减少气候误报影响的意义。随后几章通过探讨国防工业行为准则,重点关注与工业界的伙伴关系。第 8 章探讨了最大的国防承包商的行为准则,并确定了国防采购和供应链管理中的机遇。第 9 章提出了一个概念模型,以确定有关环境可持续性绩效的最重要政策决定,这些决定应在维护信息安全的同时,关注操作耐力和环境可持续性。总之,这一部分建议与所有利益相关方共同解决气候安全战略问题,并与国防工业合作,推动作战耐力和环境可持续性方面的创新。
第三部分探讨了武装部队如何适应不断变化的全球气候安全条件。在这一部分中,首先在第 10 章中回顾了军队在危机管理和灾害响应中不断变化的角色。在应对危机和灾害时,提出了军事态势的三个转变:军队需要从安全思维转变为人道主义思维,从自主行动转变为军民行动,从危机应对转变为提高复原力。第 11 章提出了新的抗洪应急干预措施,作为军队角色转变的一部分。该章还回顾了军队在应急响应中的作用,并介绍了在高水位条件下的大规模实验结果,展示了新颖的防洪方法。这些方法可用于本国或远方行动。最后,第 12 章提出了一个保护海上重要但也脆弱的可持续能源基础设施的新框架。该框架以定量作战分析方法为基础,提供了优化监视巡逻的结构,以适应能源安全中新的脆弱性。总之,军方需要为危机管理和灾难应对中的合作做好准备,考虑使用新方法预防洪水,并确保在国内和全球行动中保护重要的能源基础设施。
最后一部分从陆地、海上和空中行动的角度阐述了军队对减缓气候变化的贡献,并对太阳能地球工程对气候安全和国家主权的威胁进行了最后的回顾。第 13 章回顾了如何将适应性军事战略和行动与更可持续的解决方案相结合。该章提出通过转向合作、开放式创新和生态系统思维,解决将可再生能源技术融入荷兰陆军的技术、后勤和作战方面的问题。第 14 章讨论了荷兰皇家海军的能源转型问题。它对向替代能源载体和能源系统过渡所面临的挑战和机遇进行了批判性审查,并提出了未来海军舰队所需的研发方向,该舰队可在不使用化石燃料的情况下独立运行,并将排放和特征降至最低。第 15 章提出通过应用直升机编队飞行提高任务效率。这项工作展示了操作改进,并通过一个新的数学模型确定了节省约 10%燃料的潜力。最后,第 16 章回顾了太阳能地球工程这一潜在的全球变暖减缓技术如何对气候安全、合作和国家主权构成威胁。总之,本章调查了能源转型对陆军、海军和空军的影响,并对太阳能地球工程作为一种潜在的新地缘政治威胁进行了分析,从而促进军队可以为减缓气候变化和军事行动对环境的影响做出贡献。