为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输 入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间 的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它 是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而 使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习 流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专 门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况 而定,而模型和数据千差万别,很难从各种项目中归纳出特征工程的实践原则。
然而,特征工程并不只是针对具体项目的行为,它有一些基本原则,而且最好结合具体情 境进行解释说明。在本书中,每一章都集中阐述一个数据问题:如何表示文本数据或图像 数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。你可以 将本书看作内容互有联系的短篇小说集,而不是一部长篇小说。每一章都对大量现有特征 工程技术进行了简单介绍,它们综合在一起,阐明了特征工程的基本原则。
掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途 是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优 点和缺点。只有清楚地知道事情是如何完成的,对其中的基本原理有直观的理解,并能将 知识融会贯通,才称得上精通。尽管一本好书可以让你初窥门径,但只靠读书不能登堂入 室,你必须动手实践,将你的想法变成实际的应用,这是一个不断迭代的过程。在每次迭 代中,我们都能将想法理解得更加透彻,并逐渐找到更巧妙、更有创造性的实现方法。本书的目的就是帮助你更好地实现想法。
第 8 章专门讲解图像处理, 图像数据的特征提取要比文本数据困难得多。我们先介绍两种手动提取特征的技术:SIFT 和 HOG,然后再介绍深度学习这种最新的图像特征提取技术。
最后,第 9 章通过一个完 整的例子(为一个学术论文数据集创建推荐器)演示几种技术的实际应用。