数据科学 | 收集的一些数据科学的名词看看是否理解

会员服务 ·

数据科学 | 收集的一些数据科学的名词看看是否理解

2017 年 8 月 25 日 沈浩老师 沈浩

当前最大的流行语是“大数据”和“数据科学”。建立在大数据基础上的数据科学正在迅速成为一个非常热门的话题。

图片来源：点击这里

什么是真正定义了科学的数据科学 -什么是那些进行数据科学需要基本的真正的 科学，我们可以建立数据科学的数学基础和计算机科学基础？

以下是一套基本原理：

数据科学基础

介绍

大数据/分析/数据科学学科领域最易说“我做数据科学”。然而，就数据科学的基础知识而言，我们需要提出以下关键问题：“数据”究竟是什么，我们试图用数据做什么，以及如何应用科学原理来实现数据目标？

什么是数据？
数据科学的目标
科学方法

概率与统计

世界是一个概率性的，所以我们使用概率论的数据 - 这意味着，考虑到一定的前提条件，数据将只在一段时间内以特定的方式出现在你身边。要正确应用数据科学，必须熟悉和舒适的概率和统计学。

数据的两个特征
统计数据示例
概率
概率分布
与统计分布的连接
统计属性（平均值，模式，中位数，时刻，标准偏差等）
共同概率分布（离散，二项式，正态）
其他概率分布（Chi-square，Poisson）
联合条件概率
贝叶斯规则
贝叶斯推论

决策理论

决策是数据科学的关键基础之一。无论是在科学，工程或商业领域应用，我们正在努力通过数据做出决策。数据本身是无用的，除非它告诉我们一些东西，这意味着 我们正在作出关于它告诉我们的决定。我们如何想出这些决定？决策过程有哪些因素？使用数据做出决策的最佳方法是什么？

假设检验
二元假设检验
似然比和对数似然比
贝叶斯风险
Neyman - 皮尔逊标准
ROC曲线
M-元假设检验
最优决策

估计理论

有时我们对数据进行表征 - 平均值，参数估计等。从数据估计本质上是决策的延伸，这是决策理论的一个自然的一部分。

估计作为扩展假设M检验
无偏估计
最小均方误差（MMSE）
最大似然估计（MLE）
最大后验估计（MAP）
卡尔曼滤波器

坐标系

为了将各种数据元素合并成一个共同的决策框架，我们需要知道如何对齐数据。了解协调系统及其使用方式对于将不同的数据整合在一起构成坚实的基础很重要。

坐标系
欧几里德空间
正交坐标系
正交坐标系的属性（角度，点积，坐标变换等）
笛卡尔坐标系
极坐标系
圆柱坐标系
球面坐标系
坐标系之间的转换

线性变换

一旦我们了解坐标系统，我们就可以了解为什么要转换数据以获得基础信息。本节介绍如何通过各种类型的转换（包括流行的傅里叶变换）将数据转换成其他有用的数据产品。

线性变换简介
线性变换特性
矩阵乘法
傅里叶变换
傅里叶变换的属性（时频关系，位移不变性，光谱特性，Parseval定理，卷积定理等）
离散和连续傅里叶变换
不确定性原则和混淆
小波和其他变换

计算对数据的影响

数据科学经常被忽视的方面是我们应用的算法对我们正在寻找的信息的影响。仅仅应用算法和计算来创建分析和其他数据产品对数据驱动的有效决策能力有影响。介绍数据科学的先进方面。

计算的数学表示法
可逆计算（双目标映射）
不可逆计算
脉冲响应函数
概率分布的变换（由于加法，减法，乘法，除法，任意计算等）
决策制定

原型编码/编程

数据科学的关键要素之一就是实践者愿意用数据“弄脏他们的手”。这意味着能够编写访问，处理和可视化科学和工业中重要语言的数据的程序。本节将介绍这些重要内容。

编程介绍
数据类型，变量和函数
数据结构（数组等）
循环，比较，If-Then-Else
功能
脚本语言与可编译语言
SQL
SAS
R语言
Python
C ++

图论

图表是说明不同数据元素之间的连接的方法，它们在当今互联的世界中很重要。

图论简介
无向图
定向图
各种图形数据结构
路由和网络问题

算法

数据科学的关键在于理解使用算法来计算重要的数据导出指标。本节包含了流行的数据处理算法。

算法介绍
递归算法
串行，并行和分布式算法
彻底搜索
分治与征服（二进制搜索）
渐变搜索
排序算法
线性规划
贪婪算法
启发式算法
随机算法
图的最短路径算法

机器学习

数据科学基础课程在没有机器学习的情况下将不会完成。然而，重要的是要知道这些技术是建立在前面部分描述的基本原理之上的。本节将为从业者了解有用和受欢迎的机器学习技术以及为什么应用它们。

机器学习简介
线性分类器（Logistic回归，朴素贝叶斯分类器，支持向量机）
决策树（随机森林）
贝叶斯网络
隐马尔可夫模型
期望最大化
人工神经网络与深度学习
矢量量化
K均值聚类评估

登录查看更多

相关内容

数据科学

关注 48

数据科学（英語：data science）是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

【2020新书】从Excel中学习数据挖掘，223页pdf

专知会员服务

93+阅读 · 2020年6月28日

【干货书】用于概率、统计和机器学习的Python，288页pdf

专知会员服务

291+阅读 · 2020年6月3日

【实用书】Python数据科学从零开始，330页pdf

专知会员服务

145+阅读 · 2020年5月19日

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

专知会员服务

219+阅读 · 2020年5月7日

一本有意思的书！《用Python做数学》，265页pdf使用编程探索代数，统计，微积分! Doing Math with Python: Use Programming to Explore Algebra, Statistics, Calculus, and More

专知会员服务

173+阅读 · 2020年4月27日

干货书《数据科学数学系基础》2020最新版，266页pdf

专知会员服务

325+阅读 · 2020年3月23日

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

346+阅读 · 2020年3月17日

【2020新书】数据科学:十大Python项目，247页pdf

专知会员服务

216+阅读 · 2020年2月21日

2020年MIT出版社新书《因果推理原理：基础与学习算法》，289页pdf

专知会员服务

474+阅读 · 2020年2月17日

【2020新书】数据科学编程傻瓜式学习大全，963页电子书pdf以及Python代码

专知会员服务

97+阅读 · 2020年1月23日

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

关于机器学习你要了解的 5 件事

机器学习算法与Python学习

7+阅读 · 2018年9月7日

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

谈谈过拟合

数萃大数据

5+阅读 · 2018年2月24日

深入浅出机器学习的基本原理与基础概念

InfoQ

9+阅读 · 2018年2月2日

数据科学、机器学习、人工智能的区别到底是什么？

MOOC

3+阅读 · 2018年2月1日

最适合机器学习新手的10种算法

论智

9+阅读 · 2018年1月23日

一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南

算法与数学之美

10+阅读 · 2018年1月4日

干货|通俗易懂地解释EM算法并举例说明?

机器学习研究会

12+阅读 · 2017年11月17日

[有意思的数学] 参数估计

机器学习和数学

15+阅读 · 2017年6月4日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

A Survey of Adversarial Learning on Graphs

Arxiv

38+阅读 · 2020年3月10日

Attributed Graph Clustering via Adaptive Graph Convolution

Arxiv

11+阅读 · 2019年6月4日

Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

Arxiv

6+阅读 · 2019年2月25日

Panoptic Feature Pyramid Networks

Arxiv

3+阅读 · 2019年1月8日

Data Poisoning Attack against Unsupervised Node Embedding Methods

Arxiv

4+阅读 · 2018年10月30日

Super Characters: A Conversion from Sentiment Classification to Image Classification

Arxiv

4+阅读 · 2018年10月15日

Learning Unsupervised Learning Rules

Arxiv

7+阅读 · 2018年5月23日

GraphRNN: A Deep Generative Model for Graphs

Arxiv

6+阅读 · 2018年2月24日

A Systematic Evaluation and Benchmark for Person Re-Identification: Features, Metrics, and Datasets

Arxiv

5+阅读 · 2018年2月14日

VIP会员