本书解释了数据科学中至关重要的统计学概念,介绍如何将各种统计方法应用于数据科学。作者以易于理解、浏览和参考的方式,引出统计学中与数据科学相关的关键概念;解释各统计学概念在数据科学中的重要性及有用程度,并给出原因。

统计方法是数据科学的关键部分,但很少有数据科学家有任何正式的统计培训。关于基本统计的课程和书籍很少从数据科学的角度涵盖这个主题。这本实用指南解释了如何将各种统计方法应用到数据科学中,告诉你如何避免它们被误用,并就什么是重要的、什么是不重要的给出建议。

许多数据科学资源包含了统计方法,但缺乏更深层次的统计视角。如果您熟悉R编程语言,并且对统计学有一定的了解,那么本文的快速引用将以一种可访问、可读的格式填补空白。

通过这本书,你会学到:

  • 为什么探索性数据分析是数据科学的一个关键的初步步骤
  • 随机抽样如何在大数据的情况下减少偏差并产生更高质量的数据集
  • 实验设计的原则如何为问题提供明确的答案
  • 如何使用回归估计结果和检测异常
  • 用于预测记录所属类别的关键分类技术
  • 从数据中“学习”的统计机器学习方法
  • 从无标记数据中提取意义的无监督学习方法

https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/

成为VIP会员查看完整内容
0
44

相关内容

如果您不熟悉基础知识,则机器学习可能是一个困难的主题。借助本书,您将获得统计编程语言R在机器学习中使用的入门原则的坚实基础。您将从回归等基础知识开始,然后进入神经网络等更高级的主题,最后深入研究像Caret这样的软件包在R世界中机器学习的前沿。

通过熟悉诸如理解回归模型和分类模型之间的差异之类的主题,您将能够解决一系列机器学习问题。知道何时使用特定模型可能意味着高精度模型与完全无用的模型之间的区别。本书提供了大量示例来构建机器学习的实用知识。

了解机器学习算法的主要部分: 认识到如何使用机器学习以简单的方式解决问题 找出何时使用某些机器学习算法与其他算法 了解如何使用最先进的软件包实施算法

成为VIP会员查看完整内容
0
25

《Python机器学习经典实例(影印版 英文版)》这本实用指南提供了近200则完整的攻略,可帮助你解决日常工作中可能遇到的机器学习难题。如果你熟悉Python以及包括pandas和scikit-learn在内的库,那么解决一些特定问题将不在话下,比如数据加载、文本处理、数值数据、模型选择、降维以及诸多其他主题。

  每则攻略中都包含代码,你可以将其复制并粘贴到实验数据集中,以确保代码的确有效。你可以插入、组合、修改这些代码,从而协助构建你自己的应用程序。攻略中还包括相关的讨论,对解决方案给出了解释并提供有意义的上下文。

  《Python机器学习经典实例(影印版 英文版)》在理论和概念之外提供了构造实用机器学习应用所需的具体细节。

https://www.oreilly.com/library/view/machine-learning-with/9781491989371/

成为VIP会员查看完整内容
0
65

链接:

http://greenteapress.com/wp/think-bayes/

作者:Allen B. Downey

Think Bayes是介绍如何通过编程方法进行贝叶斯统计的书籍。

这本书和其他Think X系列书籍的想法一样,他们认为只要你知道如何编程,那么你就可以通过这项技能来学习其他的课题。

大多数的贝叶斯统计书籍会使用数学符号并且通过微积分一类的数学概念来展现其统计思想。这本书则使用Python代码、离散逼近而非数学、连续数学来解释贝叶斯统计。通过这样的方式,在数学书里的积分,将会转变为求和。许多在概率分布上的操作将会通过简单的循环而实现。

成为VIP会员查看完整内容
1
40

本书解释了数据科学中至关重要的统计学概念,介绍如何将各种统计方法应用于数据科学。作者以易于理解、浏览和参考的方式,引出统计学中与数据科学相关的关键概念;解释各统计学概念在数据科学中的重要性及有用程度,并给出原因。

作者介绍

彼得·布鲁斯(Peter Bruce),知名统计学家,Statistics.com统计学教育学院的创立者兼院长,重采样统计软件的开发者。曾在美国马里兰大学和各种短训班教授重采样统计课程。

安德鲁·布鲁斯(Andrew Bruce),华盛顿大学统计学博士,拥有30多年的统计学和数据科学经验,在多家知名学术期刊上发表过多篇论文。

https://github.com/gedeck/practical-statistics-for-data-scientists

成为VIP会员查看完整内容
0
29

通过使用Python开发用例,全面了解监督学习算法您将学习监督学习概念、Python代码、数据集、最佳实践、常见问题和缺陷的解决方案,以及实现结构化、文本和图像数据集算法的实践知识。

你将从介绍机器学习开始,强调监督学习、半监督学习和非监督学习之间的区别。在接下来的章节中,你将学习回归和分类问题,它们背后的数学,像线性回归、逻辑回归、决策树、KNN、朴素贝叶斯等算法,以及像随机森林、支持向量机、梯度增强和神经网络等高级算法。提供了所有算法的Python实现。最后,您将得到一个端到端模型开发流程,包括模型的部署和维护。在阅读了Python的监督学习之后,你将会对监督学习和它的实际实现有一个广泛的理解,并且能够以一种创新的方式运行代码和扩展它。

你将学习:

  • 回顾使用Python进行监督学习的基本构建块和概念
  • 为结构化数据以及文本和图像开发监督学习解决方案
  • 解决围绕过拟合、特征工程、数据清理和建立最佳拟合模型的交叉验证的问题
  • 理解从业务问题定义到模型部署和模型维护的端到端模型周期
  • 在使用Python创建监督学习模型时,避免常见的缺陷并遵循最佳实践

这本书是给谁的

  • 对监督学习的最佳实践和标准感兴趣,并使用分类算法和回归技术来开发预测模型的数据科学家或数据分析师。

https://www.apress.com/gp/book/9781484261552

成为VIP会员查看完整内容
0
32

管理统计和数据科学的原理包括:数据可视化;描述性措施;概率;概率分布;数学期望;置信区间;和假设检验。方差分析;简单线性回归;多元线性回归也包括在内。另外,本书还提供了列联表、卡方检验、非参数方法和时间序列方法。

教材:

  • 包括通常在入门统计学课程中涵盖的学术材料,但与数据科学扭曲,较少强调理论
  • 依靠Minitab来展示如何用计算机执行任务
  • 展示并促进来自开放门户的数据的使用
  • 重点是发展对程序如何工作的直觉
  • 让读者了解大数据的潜力和目前使用它的失败之处
成为VIP会员查看完整内容
1
84

有兴趣的数据科学专业人士可以通过本书学习Scikit-Learn图书馆以及机器学习的基本知识。本书结合了Anaconda Python发行版和流行的Scikit-Learn库,演示了广泛的有监督和无监督机器学习算法。通过用Python编写的清晰示例,您可以在家里自己的机器上试用和试验机器学习的原理。

所有的应用数学和编程技能需要掌握的内容,在这本书中涵盖。不需要深入的面向对象编程知识,因为工作和完整的例子被提供和解释。必要时,编码示例是深入和复杂的。它们也简洁、准确、完整,补充了介绍的机器学习概念。使用示例有助于建立必要的技能,以理解和应用复杂的机器学习算法。

对于那些在机器学习方面追求职业生涯的人来说,Scikit-Learn机器学习应用手册是一个很好的起点。学习这本书的学生将学习基本知识,这是胜任工作的先决条件。读者将接触到专门为数据科学专业人员设计的蟒蛇分布,并将在流行的Scikit-Learn库中构建技能,该库是Python世界中许多机器学习应用程序的基础。

你将学习

  • 使用Scikit-Learn中常见的简单和复杂数据集
  • 将数据操作为向量和矩阵,以进行算法处理
  • 熟悉数据科学中使用的蟒蛇分布
  • 应用带有分类器、回归器和降维的机器学习
  • 优化算法并为每个数据集找到最佳算法
  • 从CSV、JSON、Numpy和panda格式加载数据并保存为这些格式

这本书是给谁的

  • 有抱负的数据科学家渴望通过掌握底层的基础知识进入机器学习领域,而这些基础知识有时在急于提高生产力的过程中被忽略了。一些面向对象编程的知识和非常基本的线性代数应用将使学习更容易,尽管任何人都可以从这本书获益。
成为VIP会员查看完整内容
0
132

本书涵盖了这些领域中使用Python模块演示的概率、统计和机器学习的关键思想。整本书包括所有的图形和数值结果,都可以使用Python代码及其相关的Jupyter/IPython Notebooks。作者通过使用多种分析方法和Python代码的有意义的示例,开发了机器学习中的关键直觉,从而将理论概念与具体实现联系起来。现代Python模块(如panda、y和Scikit-learn)用于模拟和可视化重要的机器学习概念,如偏差/方差权衡、交叉验证和正则化。许多抽象的数学思想,如概率论中的收敛性,都得到了发展,并用数值例子加以说明。本书适合任何具有概率、统计或机器学习的本科生,以及具有Python编程的基本知识的人。

成为VIP会员查看完整内容
0
112

高斯过程(GPs)为核机器的学习提供了一种有原则的、实用的、概率的方法。在过去的十年中,GPs在机器学习社区中得到了越来越多的关注,这本书提供了GPs在机器学习中理论和实践方面长期需要的系统和统一的处理。该书是全面和独立的,针对研究人员和学生在机器学习和应用统计学。

这本书处理监督学习问题的回归和分类,并包括详细的算法。提出了各种协方差(核)函数,并讨论了它们的性质。从贝叶斯和经典的角度讨论了模型选择。讨论了许多与其他著名技术的联系,包括支持向量机、神经网络、正则化网络、相关向量机等。讨论了包括学习曲线和PAC-Bayesian框架在内的理论问题,并讨论了几种用于大数据集学习的近似方法。这本书包含说明性的例子和练习,和代码和数据集在网上是可得到的。附录提供了数学背景和高斯马尔可夫过程的讨论。

成为VIP会员查看完整内容
0
100
小贴士
相关VIP内容
专知会员服务
65+阅读 · 1月2日
专知会员服务
40+阅读 · 2020年12月29日
专知会员服务
29+阅读 · 2020年11月6日
专知会员服务
84+阅读 · 2020年7月29日
专知会员服务
54+阅读 · 2020年7月1日
专知会员服务
132+阅读 · 2020年6月10日
专知会员服务
112+阅读 · 2020年6月3日
专知会员服务
100+阅读 · 2020年5月2日
相关资讯
相关论文
Parikshit Bansal,Prathamesh Deshpande,Sunita Sarawagi
0+阅读 · 3月2日
Manoj Kumar,Dirk Weissenborn,Nal Kalchbrenner
6+阅读 · 2月8日
Deyu Bo,Xiao Wang,Chuan Shi,Meiqi Zhu,Emiao Lu,Peng Cui
3+阅读 · 2020年2月5日
Craig Macartney,Tillman Weyde
6+阅读 · 2018年11月27日
Feature Fusion through Multitask CNN for Large-scale Remote Sensing Image Segmentation
Shihao Sun,Lei Yang,Wenjie Liu,Ruirui Li
6+阅读 · 2018年7月24日
Marc Bosch,Christopher M. Gifford,Austin G. Dress,Clare W. Lau,Jeffrey G. Skibo,Gordon A. Christie
14+阅读 · 2018年1月31日
Kaiming He,Georgia Gkioxari,Piotr Dollár,Ross Girshick
7+阅读 · 2018年1月24日
Lei Zhang,Shuai Wang,Bing Liu
23+阅读 · 2018年1月24日
Pedram Hosseini,Ali Ahmadian Ramaki,Hassan Maleki,Mansoureh Anvari,Seyed Abolghasem Mirroshandel
5+阅读 · 2018年1月23日
Top