从一开始就创建良好的数据,而不是在收集数据之后修复它。通过遵循这本书中的指导方针,你将能够进行更有效的分析,并产生研究数据的及时演示。
数据分析师通常与数据集提出了勘探和研究设计不良,导致解释的困难和延误产生有意义的结果。数据分析培训的重点是如何在开始认真分析之前清理和转换数据集。通过使用良好的数据集设计和理解数据类型如何决定可以执行的分析类型,可以避免不恰当或令人困惑的表示、度量单位选择、编码错误、缺失值、离群值等。
这本书讨论了数据集创建的原则和最佳实践,并涵盖了基本数据类型及其相关的适当统计和可视化。这本书的一个重点是为什么选择某些数据类型来表示概念和度量,而不是典型的讨论如何分析选定的特定数据类型。
你会: 注意创建和收集数据的原则 了解基本数据类型和表示 选择数据类型,预测分析目标 理解数据集的结构和用于分析和共享的实践 由例子引导和用例(好的和坏的) 使用清洁工具和方法创建良好的数据