这本书旨在提供一个逐步的实施机器学习项目的指导手册。它是建立在自20世纪90年代以来涌现的大量工作的基础上,解决了机器学习开发者面临的挑战。本书中记录的方法并非原创,尽管有些是未发表的,因为我试图将最佳实践和学术出版物编码化。我尽可能提供参考文献,但我肯定有遗漏的地方。无论如何,如果没有引用,请理解我没有声称发明或创新——只是我找不到署名,如果我冒犯了你,我表示道歉。有很多关于AI和ML的技术书籍,所以这本书并不试图填补那个空白。如果你对这些话题了解不深,那么在试图应用这种方法论之前,以下的书籍是好的起点:
本书的组织方式:路线图。在每一章中,除了本章,内容都以结构化的方式呈现,目标是实现准确性和简洁性。 * 第一章提供了我在写这本书时脑海中的核心概念和动机的描述,希望能让读者了解这本书试图传达什么,以及它如何帮助。 * 第二章概述了在客户、自己和组织之间建立项目共识的步骤,无论该组织是客户的另一个部门还是独立的。你将学习如何组织过程,与客户合作建立需求,深入了解客户的数据,并确定必要的工具。 * 第三章介绍了如何创建一个你的团队和利益相关者可以理解的项目假设,这包括创建可以让项目得到适当资金和资源的估算,以及为了让项目正式启动并运行需要完成的工作。你将学习开始项目需要理解什么,谁需要理解它,谁需要同意。 * 第四章介绍了进行冲刺0所需的工作。这个冲刺包含了开始项目的工作,并使团队进入项目。在第四章,你将了解启动一个ML项目和让团队开始工作并提高效率所需的条件。 * 第五章涵盖了冲刺1的第一部分。这项工作要求有一个技术团队,并能够访问推动进展所需的系统和信息。在这一章,重点是获取团队需要用来创建机器学习模型的数据,并将其放入可以用来支持建模的环境中。 * 第六章利用数据管道完成了冲刺1的工作,以理解客户的数据并构建第一个原型模型。你将学习需要进行哪些类型的数据探索,以及团队成功开始建模所需的步骤。 * 第七章开始冲刺2的工作,重点在于使用结构化和系统性的过程建立有用的模型,以及确定将进行详细评估并选择集成到生产系统中的模型。在第七章,你将了解建模团队应采取哪种结构和流程。 * 第八章完成了冲刺2,提供了在线和离线环境中的模型进行结构化测试和选择的指导,包括讨论评估模型时常遇到的陷阱和问题。你将学习在评估和比较ML模型时需要注意什么,以及如何管理这些比较的过程。 * 第九章深入介绍了冲刺3的实施,详细描述了将选定的模型集成到生产系统并部署使用的过程。它还强调了为提供用户友好界面必须考虑的重要因素。在这里,你将学习将模型从有趣的实验转变为组织运行系统的一部分需要什么。最后,在第十章中,描述了管理生产中的机器学习系统的含义和必要的实践。第十章的目标是展示为了将ML项目维持为价值引擎,需要建立和运行哪种类型的流程和结构。