数据科学不仅仅是机器学习和统计学,也不仅仅是预测。但有一件事我们可以非常自信地断言,数据科学始终与数据有关。本书的目的有两方面:
我们专注于数据科学的支柱: 数据。
我们使用Julia编程语言来处理数据。
有许多编程语言,每一种都有自己的优点和缺点。有些语言非常快,但很冗长。其他语言很容易写,但很慢。这就是所谓的两种语言问题,Julia的目标是解决这个问题。尽管我们三个人来自不同的领域,但我们都发现朱莉娅的语言在我们的研究中比我们以前使用过的语言更有效。我们将在第二节讨论我们的一些论点。然而,与其他语言相比,Julia 是一种最新的语言。这意味着围绕语言的生态系统有时很难驾驭。很难弄清楚从哪里开始,以及如何将所有不同的包组合在一起。这就是为什么我们决定创作这本书!我想让研究人员,尤其是我们的同事,更容易开始使用这门很棒的语言。如上所述,每种语言都有其优缺点。在我们看来,数据科学绝对是Julia的强项。与此同时,我们三个人都在日常生活中使用数据科学工具。而且,你可能也想使用数据科学!这就是为什么本书将重点放在数据科学上。在本节的下一部分,我们强调数据科学的“数据”部分,以及为什么数据技能是,并将继续在工业和学术界的高需求。我们主张将软件工程实践纳入数据科学,这将减少与合作者更新和共享代码时的摩擦。大多数数据分析都需要合作;这就是为什么这些软件实践将帮助您。