数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

VIP内容

这篇经过彻底修改的指南演示了命令行的灵活性如何帮助您成为更高效和高效的数据科学家。您将学习如何组合小型但功能强大的命令行工具来快速获取、清理、探索和建模您的数据。首先,作者Jeroen Janssens提供了一个Docker映像,其中包含超过100个Unix强大工具——无论您是在Windows、macOS还是Linux上工作都很有用。

您将很快发现为什么命令行是一种敏捷的、可伸缩的和可扩展的技术。即使您习惯于使用Python或R处理数据,您也将了解如何通过利用命令行的强大功能来极大地改进数据科学工作流。本书是数据科学家、分析师、工程师、系统管理员和研究人员的理想读物。

  • 从网站、API、数据库和电子表格中获取数据
  • 对文本、CSV、HTML、XML和JSON文件执行擦洗操作
  • 研究数据,计算描述性统计数据,并创建可视化
  • 管理您的数据科学工作流
  • 从一行程序和现有的Python或R代码创建您自己的工具
  • 并行和分发数据密集型管道
  • 用降维、回归和分类算法建模数据
  • 利用Python、Jupyter、R、RStudio和Apache Spark中的命令行
成为VIP会员查看完整内容
0
24
参考链接
Top
微信扫码咨询专知VIP会员