会员服务 ·

数据科学中的数学——必备知识点+常用知识点示例+推荐学习资源

2018 年 8 月 23 日 数据分析

作为一名数据科学家，我们至少需要掌握哪些数学知识？本文为您一一列举，并解读它们。

1函数、变量、方程和图表

1.1

必备的知识点

建议从最基本的知识点（如线性方程组、二项式定理）开始入手，重点掌握：

对数，指数，多项式函数，有理数。
基本几何定理，三角恒等式。
实数和复数的基本属性。
序列，加总，不等式。
绘图，笛卡尔系、极坐标系，圆锥曲线。

1.2

常用知识点的举例

如果您想要在排序后了解搜索在百万级别数据库上的运行速度，您将会遇到二进制搜索的概念。要了解它的动态变化，需要了解对数和递推方程。或者，如果您想分析时间序列，您可能会遇到周期函数和指数衰减等概念。

1.3

学习资源的推荐

Data Science Math Skills — Coursera
Introduction to Algebra — edX
Khan Academy Algebra

2 统计学

2.1

必备知识点

在数据科学家成长的过程中，不能过度强调掌握统计和概率的重要性。很多人甚至认为经典的机器学习（非神经网络）只是统计学习。这个主题太过于广泛了。因此，画清楚重点是很有必要的。

数据摘要和描述性统计，集中趋势，方差，协方差，相关性，
概率的基本概念，期望，概率演算，贝叶斯定理，条件概率，
概率分布函数：均匀分布，正态分布，二项式分布，卡方分布，学生t-分布，中心极限定理，
采样，测量，误差，随机数生成，
假设检验，A / B检验，置信区间，p值，
方差分析，t检验
线性回归，正则化

2.2

常用知识点的举例

在同行交流中，如果你能掌握以上所有的概念，你会很快给对方留下深刻的印象。作为数据科学家，你几乎处处都要用到这些概念。

2.3

学习资源的推荐

Statistics with R specialization — Coursera, Duke University
Statistics and Probability in Data Science using Python — edX, Univ of California San Diego
Business Statistics and Analysis Specialization — Coursera, Rice University

3 线性代数

3.1

必备知识点

什么是常用的？矩阵和矩阵代数。这是学习数学的一个重要分支，用于理解大多数机器学习算法如何在数据流上工作以创建洞察力。以下是要学习的基本内容

可矩阵和向量的基本属性 - 标量乘法，线性变换，转置，共轭，秩，行列式，
矩阵乘法规则和各种算法，矩阵逆，
特殊矩阵 - 方阵，单位矩阵，三角矩阵，稀疏和密集矩阵的思想，单位向量，对称矩阵，Hermitian，skew-Hermitian和酉矩阵，
矩阵分解概念/ LU分解，高斯/高斯 - 乔丹消除，求解Ax = b方程的线性系统，
矢量空间，基，跨度，正交性，线性最小二乘，
特征值，特征向量和对角化，奇异值分解（SVD）

3.2

常用知识点的举例

如果您使用了降维技术主成分分析（PCA），那么您可能已经使用奇异值分解来实现数据降维。通常，绝大多数神经网络算法都使用线性代数技术来表示和处理网络结构和学习操作。

3.3

学习资源的推荐

Linear Algebra: Foundation to Frontier — edX, UT Austin
Mathematics for Machine Learning: Linear Algebra — Coursera, Imperial College, London

4 微积分

4.1

必备的知识点

无论你喜欢它还是在大学期间都讨厌它，事实上微积分的概念和应用在数据科学或机器学习领域的许多地方出现。它隐藏在线性回归中普通最小二乘问题的简单分析解决方案背后，或者嵌入到神经网络学习新模式的每个反向传播中。以下是要学习的方面。

单变量，极限，连续性和可微性
中值定理，不确定形式和L'Hospital规则，
极小值，
泰勒序列，无限级数求和/积分概念
积分计算的基本和中值定理，对有限和不正确积分的评价，
Beta和Gamma功能，
多变量的函数，极限，连续性，偏导数，
普通和偏微分方程的基础知识

4.2

常用知识点的举例

想知道如何实现逻辑回归算法？它很有可能使用一种称为“梯度下降”的方法来找到最小损失函数。要了解这是如何实现的，您需要使用来自微积分的概念 - 梯度，导数，极限和链式求导法则。

4.3

学习资源的推荐

Pre-University Calculus — edX, TU Delft
Khan Academy Calculus all content
Mathematics for Machine Learning: Multivariable Calculus — Coursera, Imperial College, London

5 离散数学

5.1

必备的知识点

通常，离散数学是“数据科学的数学”中较少讨论的主题，但事实是所有现代数据科学都是在计算系统的帮助下完成的，离散数学是这类系统的核心。这里是要学习的一些重点。

集，子集，幂集
计数功能，组合，可数性
基本证明方法 - 归纳法、反证法
归纳，演绎和命题逻辑的基础知识
基本数据结构 - 堆栈，队列，图形，数组，哈希表，树
图表属性 - 连接组件，度，最大流量/最小切割概念，图形着色
递归关系和方程
函数的增长和O（n）符号概念

5.2

常用知识点的举例

在社交网络分析中，您需要知道图的属性和快速算法以搜索和遍历网络。在任何算法选择中，您都需要通过使用 O（n）（Big-Oh）表示法来了解时间和空间复杂度，即运行时间和空间要求如何随输入数据大小而增长。

5.3

学习资源的推荐

Introduction to Discrete Mathematics for Computer Science Specialization — Cousera, Univ. of California San Diego
Introduction to Mathematical Thinking — Coursera, Stanford
Master Discrete Mathematics: Sets, Math Logic, and More — Udemy

6 优化论与运筹学

6.1

必备的知识点

此部分与应用数学中的传统话语没什么不同，因为它们在专业领域 - 理论计算机科学，控制理论或运筹学 - 中最为相关和最广泛使用。然而，在机器学习的实践中，对这些强大技术的基本理解可以非常有成效。实际上，每种机器学习算法/技术都旨在最小化受各种约束影响的某种估计误差。那就是优化问题。要学习的内容：

优化的基础 - 如何制定问题
最大值，最小值，凸函数，全局解
线性规划，单纯形算法
整数编程
约束编程，背包问题

6.2

常用知识点的举例

使用最小平方损失函数的简单线性回归问题通常具有精确的解析解。但逻辑回归问题却没有。要理解原因，您需要了解优化中凸性的概念。这一调查也将阐明为什么我们必须对大多数机器学习问题中的“近似”解决方案保持满意。

6.3

学习资源的推荐

Optimization Methods in Business Analytics — edX, MIT
Discrete Optimization — Coursera, University of Melbourne
Deterministic Optimization — edX, Georgia Tech

备注，本文由李昊璟、朝乐门负责翻译、编辑、排版和校对。原文提名为《Essential Math for Data Science — ‘Why’ and ‘How》，作者为Tirthajyoti Sarkar，URL为https://towardsdatascience.com/essential-math-for-data-science-why-and-how-e88271367fbd。转载请注明出处。