【新书】百页大语言模型新书，209页pdf

书籍简介

通过数学、插图和代码掌握语言模型，并从零开始构建自己的模型！《百页语言模型书》由Andriy Burkov编写，是其畅销书《百页机器学习书》的续集（现已翻译成12种语言），为读者提供了从语言建模基础到现代大型语言模型（LLM）前沿的简洁而深入的学习旅程。借助Andriy著名的“百页”格式，读者将掌握理论概念和实际实现，是开发者、数据科学家和机器学习工程师的宝贵资源。《百页语言模型书》将帮助你： * 掌握现代机器学习和神经网络的数学基础 * 用Python构建和训练三种语言模型架构 * 从零开始理解并编写基于Transformer的语言模型（使用PyTorch） * 使用LLM，包括指令微调和提示工程

本书以实践为导向，包含可运行的Python代码示例，逐步提升读者的理解，从基础机器学习概念到高级语言模型架构。所有代码示例均可在Google Colab上运行，任何拥有现代笔记本电脑的人都可以访问。 关于技术

语言模型已经从简单的n-gram统计方法演变为AI领域最具变革性的技术之一，其影响力仅次于个人计算机。本书涵盖了语言模型的完整演变——从基于计数的方法到现代的Transformer架构——深入理解这些模型的工作原理以及如何实现它们。 关于本书

《百页语言模型书》采取独特的方式，逐步介绍语言建模概念，从基础方法开始，逐步深入到现代架构。每一章都建立在前一章的基础上，通过清晰的解释、图示和实际实现，使复杂概念变得易于理解。 本书内容

机器学习和神经网络的基本原理 * 文本表示技术和基础语言建模 * 使用PyTorch实现RNN和Transformer架构 * 关于语言模型微调和提示工程的实用指导 * 重要的幻觉问题及模型评估方法 * 通过本书的维基提供的高级主题资源

完整代码和额外资源可以通过本书的网站在thelmbook.com/wiki上访问。 读者群体

读者应具备Python编程经验。虽然了解PyTorch和张量有帮助，但不是必需的。具备大学水平的数学知识会有助于理解，但本书通过直观的例子和图示以清晰的方式呈现数学概念。 技术和AI领袖的推荐

Vint Cerf，互联网先驱，图灵奖得主：“这本书帮我澄清了很多关于机器学习如何运作的概念——它是一本清晰的瑰宝。” * Tomáš Mikolov，word2vec和FastText的作者：“这本书是任何语言建模新手的良好起点，尤其适合那些渴望在现有技术基础上改进的读者。” * Florian Douetteau，Dataiku联合创始人兼首席执行官：“Andriy为我们呈现了从线性代数基础到Transformer实现的精彩历程，堪称100幅精彩画作。” * Jerry Liu，LlamaIndex联合创始人兼首席执行官：“这是一本最全面却又简明的手册，帮助我们深入理解LLM如何在幕后运作。”

更多AI领域领袖的推荐，敬请访问thelmbook.com。