高清图解 | 神经网络、机器学习、数据科学一网打尽（附PDF下载）

会员服务 ·

高清图解 | 神经网络、机器学习、数据科学一网打尽（附PDF下载）

2019 年 5 月 17 日 THU数据派

来源：新智元

本文多资源，建议收藏。

一图在手，知识要点全都有！

[ 导读 ]完全图解人工智能、NLP、机器学习、深度学习、大数据！这份备忘单涵盖了上述领域几乎全部的知识点，并使用信息图、脑图等多种可视化方式呈现，设计精美，实用性强。

今天，小编要为大家推荐一个超实用、颜值超高的神经网络+机器学习+数据科学和Python的完全图解。文末附有高清PDF版链接，支持下载、打印。推荐大家可以做成鼠标垫、桌布，或者印成手册等随手携带，随时翻看。

公众号（datapi）后台回复“190518”获取高清大图PDF

这是一份非常详实的备忘单，涉及具体内容包括：

神经网络基础知识
神经网络图谱
机器学习基础知识
著名Python库Scikit-Learn
Scikit-Learn算法
机器学习算法选择指南
TensorFlow
Python基础
PySpark基础
Numpy基础
Bokeh
Keras
Pandas
使用Pandas进行Data Wrangling
使用dplyr和tidyr进行Data Wrangling
SciPi
MatPlotLib
使用ggplot进行数据可视化
Big-O

神经网络Cheat Sheet

神经网络基础知识

人工神经网络（ANN），俗称神经网络，是一种基于生物神经网络结构和功能的计算模型。它就像一个人工神经系统，用于接收、处理和传输计算机科学方面的信息。

基本上，神经网络中有3个不同的层：

输入层（所有输入都通过该层输入模型）
隐藏层（可以有多个隐藏层用于处理从输入层接收的输入）
输出层（处理后的数据在输出层可用）

神经网络图谱

图形数据可以与很多学习任务一起使用，在元素之间包含很多丰富的关联数据。例如，物理系统建模、预测蛋白质界面，以及疾病分类，都需要模型从图形输入中学习。图形推理模型还可用于学习非结构性数据，如文本和图像，以及对提取结构的推理。

机器学习Cheat Sheet

用Emoji解释机器学习

Scikit-Learn基础

Scikit-learn是由Python第三方提供的非常强大的机器学习库，它包含了从数据预处理到训练模型的各个方面，回归和聚类算法，包括支持向量机，是一种简单有效的数据挖掘和数据分析工具。在实战使用scikit-learn中可以极大的节省代码时间和代码量。它基于NumPy，SciPy和matplotlib之上，采用BSD许可证。

Scikit-Learn算法

这张流程图非常清晰直观地给出了Scikit-Learn算法的使用指南。

针对Azure Machine Learning Studios的Scikit-Learn算法

被Python武装起来的数据科学Cheat Sheet

TensorFlow

Python基础

温馨提示：本图配合《100天从Python萌新到王者》使用，效果更佳。

PySpark RDD基础

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，通过Scala语言实现，拥有Hadoop MapReduce所具有的优点，不同的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。PySpark是Spark 为 Python开发者提供的 API。

NumPy基础

NumPy是Python语言的一个扩展程序库。支持高端大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库，前身Numeric，主要用于数组计算。它实现了在Python中使用向量和数学矩阵、以及许多用C语言实现的底层函数，并且速度得到了极大提升。

Bokeh

Bokeh是一个交互式可视化库，面向现代Web浏览器。目标是提供优雅、简洁的多功能图形构造，并通过非常大或流数据集的高性能交互来扩展此功能。Bokeh可以实现快速轻松地创建交互式图表、仪表板和数据应用程序。

Keras

Keras 是一个用 Python 编写的高级神经网络 API，它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果，是做好研究的关键。

Pandas

pandas是一个为Python编程语言编写的软件库，用于数据操作和分析，基于NumPy，纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量快速便捷地处理数据的函数和方法。

使用Pandas进行Data Wrangling

Data Wrangling通常被翻译成数据整理，这个词最开始火起来是因为2017年的电影《金刚·骷髅岛》，演员马克·埃文·杰克逊扮演的角色之一被介绍为“我们的Data Wrangler史蒂夫伍德沃德”。

使用ddyr和tidyr进行Data Wrangling

为什么使用tidyr和dplyr呢？因为虽然R中存在许多基本数据处理功能，但都有点复杂并且缺乏一致的编码，导致可读性很差的嵌套功能以及臃肿的代码。使用ddyr和tidyr可以获得：

更高效的代码
更容易记住的语法
更好的语法可读性

Scipy线性代数

SciPy是一个开源的Python算法库和数学工具包。 SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。与其功能相类似的软件还有MATLAB、GNU Octave和Scilab。

Matplotlib

Matplotlib是Python编程语言及其数值数学扩展包NumPy的可视化操作界面。它为利用通用的图形用户界面工具包，如Tkinter, wxPython, Qt或GTK+向应用程序嵌入式绘图提供了应用程序接口（API）。

使用ggplot2进行数据可视化

Big-O

大O符号（英语：Big O notation），又称为渐进符号，是用于描述函数渐近行为的数学符号。更确切地说，它是用另一个（通常更简单的）函数来描述一个函数数量级的渐近上界。代表“order of...”（...... 阶）的大O，最初是一个大写希腊字母“Ο”（omicron），现今用的是大写拉丁字母“O”。