这本书涵盖了用R总结数据的基本探索性技术。这些技术通常在正式建模开始之前应用,可以帮助开发更复杂的统计模型。探索技术对于消除或强化关于世界的潜在假设也很重要,这些假设可以通过你所拥有的数据来解决。我们将详细介绍R中的绘图系统以及构造信息数据图形的一些基本原则。我们还将介绍一些用于可视化高维数据的常见多元统计技术。

这本书教你使用R来有效地可视化和探索复杂的数据集。探索性数据分析是数据科学过程的一个关键部分,因为它允许您尖锐地提出问题并改进建模策略。这本书是基于行业领先的约翰霍普金斯数据科学专业,最广泛订阅的数据科学培训项目创建。

成为VIP会员查看完整内容
0
27

相关内容

为药物开发人员而不是计算机科学家写的,这一专论采用了一种系统的方法来挖掘科学数据源,涵盖了从化合物筛选到先导化合物选择和个性化药物的合理药物发现的所有关键步骤。第一部分明确地分为四个部分,讨论了不同的可用的数据来源,包括商业和非商业的,而下一节着眼于数据挖掘在药物发现中的作用和价值。第三部分比较了多药理学最常见的应用和策略,其中数据挖掘可以大大提高研究工作。书的最后一部分是致力于复合测试的系统生物学方法。

在整本书中,工业和学术药物发现策略被处理,贡献者来自两个领域,使一个知情的决定,何时和哪些数据挖掘工具使用自己的药物发现项目。

一般来说,从数据库中提取信息称为数据挖掘。数据库是一种数据集合,其组织方式允许方便地访问、管理和更新其内容。数据挖掘包括数字和统计技术,可以应用于许多领域的数据,包括药物发现。数据挖掘的功能定义是使用数值分析、可视化或统计技术来识别数据集中重要的数值关系,从而更好地理解数据并预测未来的结果。通过数据挖掘,我们可以得到一个模型,该模型将一组分子描述符与诸如功效或ADMET特性等生物关键属性联系起来。所得模型可用于预测新化合物的关键属性值,为后续筛选确定优先级,并深入了解化合物的构效关系。数据挖掘模型范围从简单的、由线性技术导出的参数方程到复杂的、由非线性技术导出的非线性模型。文献[1-7]提供了更详细的信息。

这本书分为四个部分。第一部分涉及药物发现中使用的不同数据来源,例如,蛋白质结构数据库和主要的小分子生物活性数据库。第二部分重点介绍数据分析和数据丰富的不同方法。在这里,我们提出了对HTS数据挖掘和识别不同目标命中的工业见解。另一章展示了强大的数据可视化工具在简化这些数据方面的优势,从而促进了它们的解释。第三部分包括多种药理学的一些应用。例如,在化学基因组学时代,数据挖掘可以为配体分析和目标捕捉带来积极的结果。最后,在第四部分,系统生物学方法被考虑。例如,读者被介绍到综合和模块化分析方法,以挖掘大分子和表型数据。结果表明,该方法能够降低高维数据的复杂性,并为整合不同类型的组学数据提供了一种方法。在另一章中,建立了一套新的方法,定量地衡量化学品对生物系统的生物影响。

成为VIP会员查看完整内容
0
26

《数据科学设计手册》提供了实用的见解,突出了分析数据中真正重要的东西,并提供了如何使用这些核心概念的直观理解。这本书没有强调任何特定的编程语言或数据分析工具套件,而是专注于重要设计原则的高级讨论。这个易于阅读的文本理想地服务于本科生和早期研究生的需要,开始“数据科学入门”课程。它揭示了这门学科是如何以其独特的分量和特点,处于统计学、计算机科学和机器学习的交叉领域。在这些和相关领域的从业者会发现这本书完美的自学以及。

《数据科学设计手册》是数据科学的介绍,重点介绍建立收集、分析和解释数据的系统所需的技能和原则。作为一门学科,数据科学位于统计学、计算机科学和机器学习的交汇处,但它正在构建自己独特的分量和特征。

这本书涵盖了足够的材料在本科或早期研究生水平的“数据科学入门”课程。在这里可以找到教学这门课程的全套讲课幻灯片,以及项目和作业的数据资源,以及在线视频讲座。

成为VIP会员查看完整内容
0
49

学习使用Python分析数据和预测结果的更简单和更有效的方法

Python机器学习教程展示了通过关注两个核心机器学习算法家族来成功分析数据,本书能够提供工作机制的完整描述,以及使用特定的、可破解的代码来说明机制的示例。算法用简单的术语解释,没有复杂的数学,并使用Python应用,指导算法选择,数据准备,并在实践中使用训练过的模型。您将学习一套核心的Python编程技术,各种构建预测模型的方法,以及如何测量每个模型的性能,以确保使用正确的模型。关于线性回归和集成方法的章节深入研究了每种算法,你可以使用书中的示例代码来开发你自己的数据分析解决方案。

机器学习算法是数据分析和可视化的核心。在过去,这些方法需要深厚的数学和统计学背景,通常需要结合专门的R编程语言。这本书演示了机器学习可以如何实现使用更广泛的使用和可访问的Python编程语言。

使用线性和集成算法族预测结果

建立可以解决一系列简单和复杂问题的预测模型

使用Python应用核心机器学习算法

直接使用示例代码构建自定义解决方案

机器学习不需要复杂和高度专业化。Python使用了更简单、有效和经过良好测试的方法,使这项技术更容易为更广泛的受众所接受。Python中的机器学习将向您展示如何做到这一点,而不需要广泛的数学或统计背景。

成为VIP会员查看完整内容
0
133

本书解释了数据科学中至关重要的统计学概念,介绍如何将各种统计方法应用于数据科学。作者以易于理解、浏览和参考的方式,引出统计学中与数据科学相关的关键概念;解释各统计学概念在数据科学中的重要性及有用程度,并给出原因。

统计方法是数据科学的关键部分,但很少有数据科学家有任何正式的统计培训。关于基本统计的课程和书籍很少从数据科学的角度涵盖这个主题。这本实用指南解释了如何将各种统计方法应用到数据科学中,告诉你如何避免它们被误用,并就什么是重要的、什么是不重要的给出建议。

许多数据科学资源包含了统计方法,但缺乏更深层次的统计视角。如果您熟悉R编程语言,并且对统计学有一定的了解,那么本文的快速引用将以一种可访问、可读的格式填补空白。

通过这本书,你会学到:

  • 为什么探索性数据分析是数据科学的一个关键的初步步骤
  • 随机抽样如何在大数据的情况下减少偏差并产生更高质量的数据集
  • 实验设计的原则如何为问题提供明确的答案
  • 如何使用回归估计结果和检测异常
  • 用于预测记录所属类别的关键分类技术
  • 从数据中“学习”的统计机器学习方法
  • 从无标记数据中提取意义的无监督学习方法

https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/

成为VIP会员查看完整内容
0
51

Python中的数据科学和分析是为学术和商业环境中的数据科学和数据分析从业者设计的。其目的是通过使用Python开发的工具(如SciKit-learn、Pandas、Numpy等)向读者介绍数据科学中使用的主要概念。鉴于Python最近在数据科学社区的流行,它的使用特别有趣。有经验的程序员和新手都可以使用这本书。

本书的组织方式是各个章节相互独立,这样读者就可以放心地使用其中的内容作为参考。这本书从过程和获得的结果的角度讨论了什么是数据科学和分析。还介绍了Python的重要特性,包括Python入门。机器学习、模式识别和人工智能的基本元素在书的其余部分使用的算法和实现的基础上也出现在书的第一部分。

本书的第二部分介绍了使用Python、聚类技术和分类算法的回归分析。层次聚类、决策树和集成技术,以及降维技术和推荐系统也被探讨。书的最后一部分讨论了支持向量机算法和内核技巧。

成为VIP会员查看完整内容
0
52

通过这个紧凑的实用指南,开始使用Python进行数据分析。这本书包括三个练习和一个用正确的格式从Python代码中获取数据的案例研究。使用Python学习数据分析还可以帮助您使用分析发现数据中的意义,并展示如何可视化数据。

每一节课都尽可能是独立的,允许您根据需要插入和退出示例。如果您已经在使用Python进行数据分析,那么您会发现您希望知道如何使用Python来完成许多事情。然后,您可以将这些技术直接应用到您自己的项目中。

如果您不使用Python进行数据分析,那么本书从一开始就带您了解基础知识,为您在该主题中打下坚实的基础。当你阅读完这本书的时候,你会对如何使用Python进行数据分析有更好的理解。

你将学到什么

  • 从Python代码中获取数据
  • 准备数据及其格式
  • 找出数据的意义
  • 使用iPython可视化数据

这本书是给谁的

想学习使用Python进行数据分析的同学。建议您具有Python方面的经验,但不是必需的,因为您需要具有数据分析或数据科学方面的经验。

成为VIP会员查看完整内容
0
123

《R之书》是一本全面的入门指南,介绍了世界上最流行的统计分析编程语言R。即使你没有编程经验,只具备一些基本的数学基础,你也会发现开始有效地使用R进行统计分析所需要的一切。

您将从基础知识开始,比如如何处理数据和编写简单的程序,然后再转向更高级的主题,比如生成数据的统计摘要以及执行统计测试和建模。您还将学习如何使用R的基本图形工具和贡献的包(如ggplot2和ggvis)创建令人印象深刻的数据可视化,以及使用rgl包创建交互式3D可视化。

几十个动手练习(可下载的解决方案)带你从理论到实践,你学习:

  • R语言编程的基础,包括如何编写数据帧、创建函数、使用变量、语句和循环
  • 统计概念,如探索性数据分析,概率,假设检验,回归建模,以及如何在R中执行它们
  • 如何访问R的数千个函数、库和数据集
  • 如何从数据中得出有效和有用的结论
  • 如何创建发布质量图形的结果

结合实际例子和练习的详细解释,这本书将为您提供一个坚实的统计和R的功能的深度理解。让R这本书成为你进入日益增长的数据分析世界的大门。

成为VIP会员查看完整内容
0
62

从数据科学的角度研究Python,并学习用于做出关键业务决策的数据可视化的成熟技术。从介绍Python的数据科学开始,您将进一步了解Python环境,并熟悉Jupyter Notebook和Spyder等编辑器。通过Python编程入门之后,您将掌握数据科学中使用的基本Python编程技术。接下来是数据可视化,您将看到它如何满足现代业务需求并形成决策的关键因素。您还将了解Python中一些流行的数据可视化库。

将重点转移到数据结构,您将从数据科学的角度了解数据结构的各个方面。然后使用Python处理文件I/O和正则表达式,然后收集和清理数据。继续探索和分析数据,您将看到Python中的高级数据结构。然后,您将深入研究数据可视化技术,了解Python中的许多绘图系统。

最后,您将完成一个详细的案例研究,您将有机会重温到目前为止介绍的概念。

你会学到什么

  • 在数据科学中使用Python编程技术
  • Python中的主数据收集
  • 为BI系统创建引人入胜的可视化
  • 部署收集和清理数据的有效策略
  • 整合Seaborn和Matplotlib绘图系统

这本书是给谁看的

具有基本Python编程知识的开发人员希望采用使用Python进行数据分析和可视化的关键策略。

成为VIP会员查看完整内容
0
114

在Python中获得操作、处理、清理和处理数据集的完整说明。本实用指南的第二版针对Python 3.6进行了更新,其中包含了大量的实际案例研究,向您展示了如何有效地解决广泛的数据分析问题。在这个过程中,您将学习最新版本的panda、NumPy、IPython和Jupyter。

本书由Python panda项目的创建者Wes McKinney编写,是对Python中的数据科学工具的实用的、现代的介绍。对于刚接触Python的分析人员和刚接触数据科学和科学计算的Python程序员来说,它是理想的。数据文件和相关材料可以在GitHub上找到。

  • 使用IPython外壳和Jupyter笔记本进行探索性计算
  • 学习NumPy (Numerical Python)中的基本和高级特性
  • 开始使用pandas库的数据分析工具
  • 使用灵活的工具来加载、清理、转换、合并和重塑数据
  • 使用matplotlib创建信息可视化
  • 应用panda groupby工具对数据集进行切片、切割和汇总
  • 分析和处理有规律和不规则的时间序列数据
  • 学习如何解决现实世界的数据分析问题与彻底的,详细的例子
成为VIP会员查看完整内容
0
117
小贴士
相关主题
相关VIP内容
专知会员服务
34+阅读 · 10月18日
专知会员服务
26+阅读 · 9月20日
专知会员服务
49+阅读 · 4月27日
专知会员服务
133+阅读 · 2月25日
专知会员服务
51+阅读 · 2020年12月31日
专知会员服务
52+阅读 · 2020年8月22日
专知会员服务
123+阅读 · 2020年6月29日
专知会员服务
62+阅读 · 2020年5月9日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
117+阅读 · 2020年3月12日
相关资讯
R语言时间序列分析
R语言中文社区
9+阅读 · 2018年11月19日
数据科学与机器学习数据集
Datartisan数据工匠
6+阅读 · 2017年12月14日
【入门】数据分析六部曲
36大数据
11+阅读 · 2017年12月6日
一位数据分析师的书单
R语言中文社区
9+阅读 · 2017年10月28日
相关论文
Claudio Heinrich-Mertsching,Thordis L. Thorarinsdottir,Peter Guttorp,Max Schneider
0+阅读 · 10月22日
Feature Selection for Multivariate Time Series via Network Pruning
Kang Gu,Soroush Vosoughi,Temiloluwa Prioleau
0+阅读 · 10月21日
Siddhartha Banerjee,David Kempe,Robert Kleinberg
0+阅读 · 10月21日
Marco Comunità,Huy Phan,Joshua D. Reiss
0+阅读 · 10月18日
Yixin Liu,Shirui Pan,Ming Jin,Chuan Zhou,Feng Xia,Philip S. Yu
11+阅读 · 8月5日
One-Class Classification: A Survey
Pramuditha Perera,Poojan Oza,Vishal M. Patel
6+阅读 · 1月8日
Mahtab Ahmed,Muhammad Rifayat Samee,Robert E. Mercer
3+阅读 · 2019年1月1日
Mohammad Hossain Namaki,F A Rezaur Rahman Chowdhury,Md Rakibul Islam,Janardhan Rao Doppa,Yinghui Wu
6+阅读 · 2018年1月21日
Top