书籍简介
通过数学、插图和代码掌握语言模型,并从零开始构建自己的模型! 《百页语言模型书》由Andriy Burkov编写,是其畅销书《百页机器学习书》的续集(现已翻译成12种语言),为读者提供了从语言建模基础到现代大型语言模型(LLM)前沿的简洁而深入的学习旅程。借助Andriy著名的“百页”格式,读者将掌握理论概念和实际实现,是开发者、数据科学家和机器学习工程师的宝贵资源。 《百页语言模型书》将帮助你: * 掌握现代机器学习和神经网络的数学基础 * 用Python构建和训练三种语言模型架构 * 从零开始理解并编写基于Transformer的语言模型(使用PyTorch) * 使用LLM,包括指令微调和提示工程
本书以实践为导向,包含可运行的Python代码示例,逐步提升读者的理解,从基础机器学习概念到高级语言模型架构。所有代码示例均可在Google Colab上运行,任何拥有现代笔记本电脑的人都可以访问。 关于技术
语言模型已经从简单的n-gram统计方法演变为AI领域最具变革性的技术之一,其影响力仅次于个人计算机。本书涵盖了语言模型的完整演变——从基于计数的方法到现代的Transformer架构——深入理解这些模型的工作原理以及如何实现它们。 关于本书
《百页语言模型书》采取独特的方式,逐步介绍语言建模概念,从基础方法开始,逐步深入到现代架构。每一章都建立在前一章的基础上,通过清晰的解释、图示和实际实现,使复杂概念变得易于理解。 本书内容
机器学习和神经网络的基本原理 * 文本表示技术和基础语言建模 * 使用PyTorch实现RNN和Transformer架构 * 关于语言模型微调和提示工程的实用指导 * 重要的幻觉问题及模型评估方法 * 通过本书的维基提供的高级主题资源
完整代码和额外资源可以通过本书的网站在thelmbook.com/wiki上访问。 读者群体
读者应具备Python编程经验。虽然了解PyTorch和张量有帮助,但不是必需的。具备大学水平的数学知识会有助于理解,但本书通过直观的例子和图示以清晰的方式呈现数学概念。 技术和AI领袖的推荐
Vint Cerf,互联网先驱,图灵奖得主:“这本书帮我澄清了很多关于机器学习如何运作的概念——它是一本清晰的瑰宝。” * Tomáš Mikolov,word2vec和FastText的作者:“这本书是任何语言建模新手的良好起点,尤其适合那些渴望在现有技术基础上改进的读者。” * Florian Douetteau,Dataiku联合创始人兼首席执行官:“Andriy为我们呈现了从线性代数基础到Transformer实现的精彩历程,堪称100幅精彩画作。” * Jerry Liu,LlamaIndex联合创始人兼首席执行官:“这是一本最全面却又简明的手册,帮助我们深入理解LLM如何在幕后运作。”
更多AI领域领袖的推荐,敬请访问thelmbook.com。