在过去的十年里,计算和信息技术突飞猛进。它带来了医学、生物学、金融和营销等各个领域的大量数据。理解这些数据的挑战导致了统计领域新工具的发展,并催生了数据挖掘、机器学习和生物信息学等新领域。许多这些工具有共同的基础,但经常用不同的术语表示。这本书在一个共同的概念框架中描述了这些领域的重要思想。虽然方法是统计的,但重点是概念而不是数学。许多例子都给出了,与自由使用彩色图形。它应该是统计学家和任何对科学或工业数据挖掘感兴趣的人的宝贵资源。这本书的覆盖面很广,从监督学习(预测)到非监督学习。许多主题包括神经网络、支持向量机、分类树和增强——这是任何一本书中对这个主题的首次全面论述。这个主要的新版本的特点,许多主题不包括在原来的,包括图形模型,随机森林,集成方法,最小角度回归和用于lasso的路径算法、非负矩阵分解和谱聚类。还有一章是关于“宽”数据的方法(p大于n),包括多重测试和错误发现率。Trevor Hastie、Robert Tibshirani和Jerome Friedman是斯坦福大学的统计学教授。他们是这一领域的杰出研究人员:Hastie和Tibshirani开发了广义可加性模型,并就此写了一本很受欢迎的书。Hastie在S-PLUS中编写了大量的统计建模软件,并发明了主曲线和曲面。Tibshirani提出了Lasso,并且是非常成功的Bootstrap介绍的合著者。弗里德曼是许多数据挖掘工具的共同发明者,包括CART、MARS和投影追踪。