https://inferentialthinking.com/chapters/intro.html
数据科学是通过探索、预测和推理,从庞大而多样的数据集中得出有用的结论。探索包括识别信息中的模式。预测是指利用我们已知的信息,对我们希望知道的值做出有根据的猜测。推论包括量化我们的确定性程度:我们发现的那些模式是否也会出现在新的观察中?我们的预测有多准确?我们用于探索的主要工具是可视化和描述性统计,用于预测的是机器学习和优化,用于推断的是统计测试和模型。统计学是数据科学的核心组成部分,因为统计学研究如何在不完整的信息下得出可靠的结论。计算是一个核心组件,因为编程允许我们将分析技术应用于现实世界中出现的大量和多样化的数据集:不仅是数字,还有文本、图像、视频和传感器读数。数据科学包含了所有这些东西,但由于应用,它不仅仅是各部分的总和。通过理解一个特定的领域,数据科学家学会对他们的数据提出适当的问题,并正确解释我们的推理和计算工具提供的答案。
通过本书一步一步地,您将学习如何利用算法思维和代码的力量,获得关于当前机器学习方法的力量和局限性的直觉,并有效地将它们应用到实际的业务问题。