数据科学是关于量化和理解人类行为,社会科学的圣杯。在下面的章节中,我们将探索一个多方面范式的广泛理论、技术、数据和应用。我们还将回顾为大数据和数据科学开发的新技术,比如使用Dean和Ghemawat(2008)在谷歌和25开发的MapReduce范式,并在雅虎的开源项目Hadoop中实现的分布式计算。26当数据变得超大时,将算法移到数据上比将算法移到数据上要好。正如大数据颠倒了数据库范式一样,大数据也在改变人类行为研究中推理的本质。归根结底,数据科学是社会科学家利用计算机科学的一种思维方式。
https://srdas.github.io/MLBook/