【硬核书】数据科学，282页pdf

2022 年 11 月 29 日 专知

数据科学的目标是通过从大型数据集中提取的见解来改进决策。作为一个活动领域，数据科学包括一组原则、问题定义、算法和从大型数据集中提取非明显和有用模式的过程。它与数据挖掘和机器学习领域密切相关，但范围更广。如今，数据科学几乎在现代社会的所有领域推动着决策的制定。数据科学可能会影响你的日常生活，包括确定哪些广告会在网上呈现给你;哪些电影、书籍和朋友被推荐给你;哪些邮件会被过滤到垃圾邮件文件夹中;当你更新你的手机服务时，你会收到什么优惠;你的健康保险费的费用;你所在区域红绿灯的顺序和时间;你可能需要的药物是如何设计的;还有你所在城市警方的目标是哪些地方。

大数据和社交媒体的出现、计算能力的提升、计算机内存成本的大幅降低，以及更强大的数据分析和建模方法(如深度学习)的发展，推动了整个社会对数据科学使用的增长。这些因素一起意味着组织从未像现在这样容易地收集、存储和处理数据。与此同时，这些技术创新和数据科学更广泛的应用意味着，与数据使用和个人隐私相关的道德挑战从未像现在这样紧迫。这本书的目的是提供数据科学的介绍，涵盖了该领域的基本元素在一个深度，提供了一个原则性的理解该领域。第一章介绍了数据科学领域，并简要介绍了它是如何发展和演变的。它还研究了为什么数据科学在今天是重要的，以及推动采用它的一些因素。本章最后回顾并揭穿了一些与数据科学相关的神话。第二章介绍与数据相关的基本概念。它还描述了数据科学项目中的标准阶段:业务理解、数据理解、数据准备、建模、评估和部署。第三章重点介绍了数据基础设施和大数据带来的挑战以及多源数据的集成。典型数据基础设施可能具有挑战性的一个方面是，数据库和数据仓库中的数据通常驻留在不同于用于数据分析的服务器上。因此，当处理大型数据集时，在数据库或数据仓库所在的服务器和用于数据分析和机器学习的服务器之间移动数据会花费大量的时间。第3章首先描述了一个组织的典型数据科学基础设施和一些新兴的解决方案，以应对在数据基础设施中移动大型数据集的挑战，其中包括数据库内机器学习的使用，使用Hadoop进行数据存储和处理，以及混合数据库系统的开发，将传统数据库软件和类似Hadoop的解决方案无缝结合。本章最后强调了在将来自整个组织的数据集成为适合机器学习的统一表示时所面临的一些挑战。第4章介绍了机器学习领域，并解释了一些最流行的机器学习算法和模型，包括神经网络、深度学习和决策树模型。第5章通过回顾一系列标准业务问题并描述如何通过机器学习解决方案来将机器学习专业知识与现实问题联系起来。第6章回顾了数据科学的伦理影响，数据监管的最新发展，以及在数据科学过程中保护个人隐私的一些新的计算方法。最后，第7章描述了数据科学在不久的将来将产生重大影响的一些领域，并列出了决定数据科学项目是否成功的一些重要原则。