当前最大的流行语是“大数据”和“数据科学”。建立在大数据基础上的数据科学正在迅速成为一个非常热门的话题。
图片来源: 点击这里
什么是真正定义了科学的数据科学 -什么是那些进行数据科学需要基本的真正的 科学,我们可以建立数据科学的数学基础和计算机科学基础?
以下是一套基本原理:
数据科学基础
介绍
大数据/分析/数据科学学科领域最易说“我做数据科学”。然而,就数据科学的基础知识而言,我们需要提出以下关键问题:“数据”究竟是什么,我们试图用数据做什么,以及如何应用科学原理来实现数据目标?
什么是数据?
数据科学的目标
科学方法
概率与统计
世界是一个概率性的,所以我们使用概率论的数据 - 这意味着,考虑到一定的前提条件,数据将只在一段时间内以特定的方式出现在你身边 。要正确应用数据科学, 必须 熟悉和舒适的概率和统计学。
数据的两个特征
统计数据示例
概率
概率分布
与统计分布的连接
统计属性(平均值,模式,中位数,时刻,标准偏差等)
共同概率分布(离散,二项式,正态)
其他概率分布(Chi-square,Poisson)
联合条件概率
贝叶斯规则
贝叶斯推论
决策理论
决策是数据科学的关键基础之一。无论是在科学,工程或商业领域应用,我们正在努力通过数据做出决策。数据本身是无用的,除非它告诉我们一些东西,这意味着 我们正在作出关于它告诉我们的决定。我们如何想出这些决定?决策过程有哪些因素?使用数据做出决策的最佳方法是什么?
假设检验
二元假设检验
似然比和对数似然比
贝叶斯风险
Neyman - 皮尔逊标准
ROC曲线
M-元假设检验
最优决策
估计理论
有时我们对数据进行表征 - 平均值,参数估计等。从数据估计本质上是决策的延伸,这是决策理论的一个自然的一部分。
估计作为扩展假设M检验
无偏估计
最小均方误差(MMSE)
最大似然估计(MLE)
最大后验估计(MAP)
卡尔曼滤波器
坐标系
为了将各种数据元素合并成一个共同的决策框架,我们需要知道如何对齐数据。了解协调系统及其使用方式对于将不同的数据整合在一起构成坚实的基础很重要。
坐标系
欧几里德空间
正交坐标系
正交坐标系的属性(角度,点积,坐标变换等)
笛卡尔坐标系
极坐标系
圆柱坐标系
球面坐标系
坐标系之间的转换
线性变换
一旦我们了解坐标系统,我们就可以了解为什么要转换数据以获得基础信息。本节介绍如何通过各种类型的转换(包括流行的傅里叶变换)将数据转换成其他有用的数据产品。
线性变换简介
线性变换特性
矩阵乘法
傅里叶变换
傅里叶变换的属性(时频关系,位移不变性,光谱特性,Parseval定理,卷积定理等)
离散和连续傅里叶变换
不确定性原则和混淆
小波和其他变换
计算对数据的影响
数据科学经常被忽视的方面是我们应用的算法对我们正在寻找的信息的影响。仅仅应用算法和计算来创建分析和其他数据产品对数据驱动的有效决策能力有影响。介绍数据科学的先进方面。
计算的数学表示法
可逆计算(双目标映射)
不可逆计算
脉冲响应函数
概率分布的变换(由于加法,减法,乘法,除法,任意计算等)
决策制定
原型编码/编程
数据科学的关键要素之一就是实践者愿意用数据“弄脏他们的手”。这意味着能够编写访问,处理和可视化科学和工业中重要语言的数据的程序。本节将介绍这些重要内容。
编程介绍
数据类型,变量和函数
数据结构(数组等)
循环,比较,If-Then-Else
功能
脚本语言与可编译语言
SQL
SAS
R语言
Python
C ++
图论
图表是说明不同数据元素之间的连接的方法,它们在当今互联的世界中很重要。
图论简介
无向图
定向图
各种图形数据结构
路由和网络问题
算法
数据科学的关键在于理解使用算法来计算重要的数据导出指标。本节包含了流行的数据处理算法。
算法介绍
递归算法
串行,并行和分布式算法
彻底搜索
分治与征服(二进制搜索)
渐变搜索
排序算法
线性规划
贪婪算法
启发式算法
随机算法
图的最短路径算法
机器学习
数据科学基础课程在没有机器学习的情况下将不会完成。然而,重要的是要知道这些技术是建立在前面部分描述的基本原理之上的。本节将为从业者了解有用和受欢迎的机器学习技术以及为什么应用它们。
机器学习简介
线性分类器(Logistic回归,朴素贝叶斯分类器,支持向量机)
决策树(随机森林)
贝叶斯网络
隐马尔可夫模型
期望最大化
人工神经网络与深度学习
矢量量化
K均值聚类评估