机器学习的入门“秘籍”

2017 年 9 月 12 日 全球人工智能

全球人工智能:一家人工智能技术学习平台。旗下有：Paper学院、商业学院、科普学院，技术学院和职业学院五大业务。拥有十几万AI开发者和学习者用户，1万多名AI技术专家。

由于人工智能的发展，机器学习越来越受到大家的追捧。很多新的计算机科学家和工程师开始跨入机器学习这个美好的世界。不幸的是，理论，算法，应用，论文，书籍，视频等的数量是如此之大，以至于无法清楚地了解到底那些才是他们想要/需要学习提高他/她的技能的知识。

在这篇文章中，我想分享一下我的经验，提出一条可行的途径，快速学习基本概念，并准备好深入讨论最复杂的话题。当然这只是个人建议：每个朋友都可以根据自己的经验，选择更多地关注一些更有趣的话题。毕竟适合自己才是最好的路！

先决条件（基础）

机器学习是非常依赖数学的一门科学。这不是一个可以选择的选项，而是必选项，因为没有数学就没有机器学习，数学是一个不可抛弃的根本支柱。如果您是计算机工程师，每天使用UML，ORM，设计模式和许多其他软件工程工具/技术，请闭上眼睛，忘记几乎所有内容。这并不意味着所有的这些概念都不重要。但机器学习需要一种不同的方法。Python在这个领域越来越受欢迎的原因之一就是它的“原型设计速度”。在机器学习中，一种允许您使用几行代码（无类，接口和所有其他OO基础架构）对算法进行建模的语言是绝对要掌握的。无疑，Python是最佳的选择，如果你有很深厚的Python基础，那么这将成为你的优势。

微积分，概率理论和线性代数是几乎任何算法所必需的数学技能。如果你已经有了很好的数学背景，你可以跳过这个部分，选择刷新一些重要的概念是一个不错的主意。考虑到数学理论，我不鼓励从头开始进行通透性学习。在完成特定的任务时也可以突击式的学习它们，数学的使用要由浅入深，一开始就注重简单的任务。

另外机器学习，有很多好的在线资源（如Coursera，Khan Academy或Udacity）。学习过程中尽量采用适合自己学历背景的务实方法。我的建议是使用一个简短的纲要，其中最重要的概念需要一一自己亲自搞明白，并且在需要的时候通过搜索和研究继续深入的学下去。这不是一个非常系统的方法，但替代方案有一个显着的缺点：大量的数学概念可以阻止和迷失所有没有深厚学术背景的人。

一个入门的“武林秘籍”：

概率论：

1．离散和连续的随机变量（Discrete and continuous random variables）

2．重要的分布（伯努利，分类，二项式，正态，指数，泊松，贝塔，伽马）

3．贝叶斯统计（Bayes statistics）

4．相关和协方差（correlation and covariance）

线性代数：

1．向量和矩阵（Vectors and matrics）

2．矩阵的决定因素（determinant of a matrix）

3．特征向量和特征值（eigenvectors and eigenvalues）

4．矩阵分解（像SVD）（Matrix factorization）

微积分：

1．函数

2．积分

网上有很多免费资源，如：

Grinstead，Snell，概率介绍，Swarthmore和达特茅斯学院
Gallagher，线性代数的介绍（用MATLAB的例子），哥伦比亚
Heinbockel，微积分介绍 Old Dominion University

维基百科也是一个非常好的资源，许多公式，理论和定理都以清晰易懂的方式解释。

机器学习必备技能：

1.特征工程：

进入机器学习的第一步是了解如何测量和提高数据集的质量。管理分类和缺失的特征、归一化和维数降低（PCA，ICA，NMF）是可以显着提高任何算法性能的基本技术。研究如何将数据集分为训练集和测试集以及如何采用交叉验证，而不是经典测试方法。如果想清楚的了解什么是特征工程，点击！

2.Numpy：Python的数学之王！

使用Python时，Numpy不仅仅是一个库。它是几乎任何机器学习实现的基础，绝对有必要了解它的工作原理，重点要关注矢量化和广播机制的概念、利用多线程和SIMD和MIMD架构的优势。通过掌握这些原理概念，可以加快大多数算法的学习过程。官方文件完整，但我也建议这些资源：

VanderPlas J.， Python数据科学手册：使用数据的基本工具，O'Reilly
LangTangen PH， A Primer on Scientific Programming with Python，Springer

3.数据可视化

虽然它不是纯粹的机器学习主题，重要的是要知道如何可视化数据集。Matplotlib可能是最佳的解决方案，它易于使用，并允许绘制不同类型的图表。Bokeh和Seaborne提供了非常有趣的选择。没有必要对所有软件包有全面的了解，但是了解每个软件包的优点/弱点是有用的，因此能够在需要时选择正确的软件包。

学习Matplotlib的一个很好的资源是：

McGreggor D.，掌握Matplotlib，Packt Publishing

4.线性回归：

线性回归是最简单的模型之一，可以考虑将其作为解决优化问题的首选，它可以解决最小化均方误差的优化问题。我建议将其研究为贝叶斯问题，其中使用先验概率表示参数（例如，高斯分布），优化成为MLE（最大似然估计）。即使它似乎更复杂，这种方法提供了一个新的思路，可以和许多其他更复杂的模型共享。

有关贝尔斯统计的非常有用的介绍可在Coursera上获得：

贝叶斯统计：从概念到数据分析
贝叶斯统计：技术和模型

我建议你选择这些书：

Downey BA， Think Bayes，O'Reilly
Davidson-Pilon C.，贝叶斯方法黑客，Addison-Wesley

5.线性分类：

逻辑回归通常是最好的起点。这也是学习一些信息理论的好机会，了解熵、交叉熵和互信息等概念。分类交叉熵是深度学习分类中最稳定的成本函数，简单的逻辑回归可以展示如何加快学习过程（与均方误差相比）。另一个重要的话题是正则化（Ridge，Lasso和ElasticNet）。有很多次，它被认为是提高模型准确性的“深奥”方式，但它的真实含义更加精确，应该通过一些具体的例子予以理解。我建议初学者可以以逻辑回归作为一个简单的神经网络搭建的开始，可视化（对于2D示例）如何权重向量在学习过程中移动。

超参数网格搜索方法是一个不错的方法。Grid Search可以评估不同超参数集的性能，而不是完全意识到不同的值。因此，工程师可以将注意力集中在产生最高精度的组合上。

6.支持向量机（SVM）：

支持向量机提供了不同的分类方法（线性和非线性）。该算法非常简单，学生只需要具有基础的几何知识就可以学习。然而，了解kernel-SVM的工作原理是非常有用，因为它们可以帮助你避免在线性方法的任务中频繁出现失败。

一些有用的免费资源：

Law，支持向量机的简单介绍，密歇根州立大学
维基百科的内核方法

7.决策树：

决策树提供了另一种分类和回归方法。一般来说，它们不是非常复杂问题的首选，但它们提供了完全不同的方法，即使是非技术人员也可以很容易地理解，并且可以在会议或官方演示中进行可视化。

8.快速浏览集成学习（Ensemble learning）：

在了解了决策树之后，研究如何组合树来提高整体准确度的方法是有用的。随机森林，梯度提升回归树和AdaBoost是复杂性比较低的强大算法。Scikit-Learn提供了最常见的实现，但是如果您想要充分利用这些算法，我建议你花一些时间研究XGBoost，这是一个分布式框架，可以与CPU和GPU一起工作，加快训练过程，即使是非常庞大的数据集。

9.聚类：

研究聚类方法，依我的意见，最好的做法是研究高斯混合算法（基于EM，期望最大化）。即使K-Means也比较简单（但必须进行研究），高斯混合提供了一种纯贝叶斯方法，这对许多其他类似的任务很有用。其他必须研究的聚类算法还包括分层聚类，光谱聚类和DBSCAN。了解基于实例的学习的思想也很有用，例如研究了k-Nearest Neighbors算法，可以用于监督学习和无监督学习任务。

光谱聚类的免费资源是：

Von Luxburg U.，A tutorial on Spectral Clustering，Max-Planck Institute

10.神经网络：

神经网络是深度学习的基础，应该花单独的时间进行研究。但是，我认为了解Perceptron，Multi-Layer Perceptron和Backpropagation算法的概念对神经网络的学习是很有用的。Scikit-learn提供了一个非常简单的神经网络，但是，它是一个好的开始，接着就是了解Keras，这是基于高层次的框架Tensorflow，Theano或CNTK的深度学习包，允许模拟和训练神经网络。

一些好的神经网络资源：