数据科学的目标是通过从大型数据集中提取的见解来改进决策。作为一个活动领域,数据科学包括一组原则、问题定义、算法和从大型数据集中提取非明显和有用模式的过程。它与数据挖掘和机器学习领域密切相关,但范围更广。如今,数据科学几乎在现代社会的所有领域推动着决策的制定。数据科学可能会影响你的日常生活,包括确定哪些广告会在网上呈现给你;哪些电影、书籍和朋友被推荐给你;哪些邮件会被过滤到垃圾邮件文件夹中;当你更新你的手机服务时,你会收到什么优惠;你的健康保险费的费用;你所在区域红绿灯的顺序和时间;你可能需要的药物是如何设计的;还有你所在城市警方的目标是哪些地方。 大数据和社交媒体的出现、计算能力的提升、计算机内存成本的大幅降低,以及更强大的数据分析和建模方法(如深度学习)的发展,推动了整个社会对数据科学使用的增长。这些因素一起意味着组织从未像现在这样容易地收集、存储和处理数据。与此同时,这些技术创新和数据科学更广泛的应用意味着,与数据使用和个人隐私相关的道德挑战从未像现在这样紧迫。这本书的目的是提供数据科学的介绍,涵盖了该领域的基本元素在一个深度,提供了一个原则性的理解该领域。第一章介绍了数据科学领域,并简要介绍了它是如何发展和演变的。它还研究了为什么数据科学在今天是重要的,以及推动采用它的一些因素。本章最后回顾并揭穿了一些与数据科学相关的神话。第二章介绍与数据相关的基本概念。它还描述了数据科学项目中的标准阶段:业务理解、数据理解、数据准备、建模、评估和部署。第三章重点介绍了数据基础设施和大数据带来的挑战以及多源数据的集成。典型数据基础设施可能具有挑战性的一个方面是,数据库和数据仓库中的数据通常驻留在不同于用于数据分析的服务器上。因此,当处理大型数据集时,在数据库或数据仓库所在的服务器和用于数据分析和机器学习的服务器之间移动数据会花费大量的时间。第3章首先描述了一个组织的典型数据科学基础设施和一些新兴的解决方案,以应对在数据基础设施中移动大型数据集的挑战,其中包括数据库内机器学习的使用,使用Hadoop进行数据存储和处理,以及混合数据库系统的开发,将传统数据库软件和类似Hadoop的解决方案无缝结合。本章最后强调了在将来自整个组织的数据集成为适合机器学习的统一表示时所面临的一些挑战。第4章介绍了机器学习领域,并解释了一些最流行的机器学习算法和模型,包括神经网络、深度学习和决策树模型。第5章通过回顾一系列标准业务问题并描述如何通过机器学习解决方案来将机器学习专业知识与现实问题联系起来。第6章回顾了数据科学的伦理影响,数据监管的最新发展,以及在数据科学过程中保护个人隐私的一些新的计算方法。最后,第7章描述了数据科学在不久的将来将产生重大影响的一些领域,并列出了决定数据科学项目是否成功的一些重要原则。

成为VIP会员查看完整内容
90

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【2022新书】机器学习与数据科学:基础与应用,272页pdf
专知会员服务
108+阅读 · 2022年8月3日
【2022新书】Python DevOps,245页pdf
专知会员服务
89+阅读 · 2022年7月11日
【经典书】数据科学探索,189页pdf
专知会员服务
59+阅读 · 2022年5月16日
【干货书】健康和生命科学的数据文本处理,107页pdf
专知会员服务
41+阅读 · 2021年7月11日
【干货书】数据科学手册,456页pdf
专知会员服务
149+阅读 · 2021年4月27日
【2020新书】金融机器学习和数据科学,400页pdf
专知会员服务
291+阅读 · 2020年12月13日
【2020新书】数据科学与机器学习导论,220页pdf
专知会员服务
80+阅读 · 2020年9月14日
【2020新书】高级Python编程,620页pdf
专知会员服务
235+阅读 · 2020年7月31日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
【硬核书】机器学习对抗鲁棒性,276页pdf
专知
8+阅读 · 2022年9月20日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
Arxiv
0+阅读 · 2023年1月31日
Arxiv
0+阅读 · 2023年1月27日
VIP会员
相关VIP内容
【2022新书】机器学习与数据科学:基础与应用,272页pdf
专知会员服务
108+阅读 · 2022年8月3日
【2022新书】Python DevOps,245页pdf
专知会员服务
89+阅读 · 2022年7月11日
【经典书】数据科学探索,189页pdf
专知会员服务
59+阅读 · 2022年5月16日
【干货书】健康和生命科学的数据文本处理,107页pdf
专知会员服务
41+阅读 · 2021年7月11日
【干货书】数据科学手册,456页pdf
专知会员服务
149+阅读 · 2021年4月27日
【2020新书】金融机器学习和数据科学,400页pdf
专知会员服务
291+阅读 · 2020年12月13日
【2020新书】数据科学与机器学习导论,220页pdf
专知会员服务
80+阅读 · 2020年9月14日
【2020新书】高级Python编程,620页pdf
专知会员服务
235+阅读 · 2020年7月31日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
微信扫码咨询专知VIP会员