机器学习入门概览

我们从一个实例来了解机器学习的基本概念。假设我们现在面临这样一个任务(Task) ,任务的内容是识别手写体的数字。对于计算机而言，这些手写数字是一张张图片，如下所示：

对人来说，识别这些手写数字是非常简单的，但是对于计算机而言，这种任务很难通过固定的编程来完成，即使我们把我们已经知道的所有手写数字都存储到数据库中，一旦出现一个全新的手写数字（从未出现在数据库中），固定的程序就很难识别出这个数字来。所以，在这里，我们的任务指的就是这类很难通过固定编程解决的任务。

要解决这类任务，我们的计算机需要有一定的“智能”，但是在我们的认知中，只有人类才具备这种“高级智能”（某些灵长类动物虽然具备一定的运用工具的能力，但我们认为那距离我们所说的智能还有很远的距离），所以如果我们想让计算机具备这种“智能”，由于这是人造的事物，我们称这种智能为人工智能（Artificial Intelligence, AI）。

正式地讲，人工智能，是指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序的手段实现的类人智能技术。机器学习可以帮助我们解决这类任务，所以我们说，机器学习是一种人工智能技术。

机器学习（Machine learning）是一类基于数据或者既往的经验,优化计算机程序的性能标准的方法。这是机器学习的定义，看起来可能难以理解，我们对它进行分解：

1、首先，对于手写数字识别这个任务来说，数据或者既往的经验就是我们已经收集到的手写数字，我们要让我们的程序从这些数据中学习到一种能力/智能，这种能力就是：通过学习，这个程序能够像人一样识别手写数字。

2、性能标准，就是指衡量我们的程序的这种能力高低的指标了。在识别任务中，这个指标就是识别的精度。给定100个手写数字，有99个数字被我们的“智能”程序识别正确，那么精度就是 99 % 。

3、优化，就是指我们基于既往的经验或者数据，让我们的“智能”程序变得越来越聪明，甚至比人类更加聪明。

机器学习，就是能够从经验中不断“学习进步”的算法，在很多情况下，我们将这些经验用数值描述，因此，经验=数据，这些收集在一起的数据被成为数据集（Dataset），在这些已有的数据集上学习的过程我们称之为训练（Train），因此，这个数据集又被称为训练集。

很显然，我们真正关心的并不是机器学习算法在训练集上的表现，我们希望我们的“智能”程序对从未见过的手写字也能够正确的识别，这种在新的样本（数据）上的性能我们称之为泛化能力（generalization ability），对于一个任务而言，泛化能力越强，这个机器学习算法就越成功。

当前大热的神经网络，深度学习等等都是监督学习，随着大数据时代的到来以及GPU带来的计算能力的提升，监督学习已经在诸如图像识别，目标检测和跟踪，机器翻译，语音识别，自然语言处理的大量领域取得了突破性的进展。

然而，当前在无监督学习领域并没有取得像监督学习那样的突破性进展。由于在无人驾驶领域主要应用的机器学习技术仍然是监督学习，本文将重点讲监督学习的相关内容。

▌监督学习

经验风险最小化

监督学习，本质上就是在给定一个集合 ( X , Y ) 的基础上去学得一个函数：

这可以理解为一个简约设计原则，在处理一个任务是，我们应当使用尽可能简单的模型结构。

“一定的算法”–>梯度下降算法

前面我们说到我们可以通过一定的算法调整神经网络的参数，这里我们就来介绍一下这个定向（朝着经验风险最小化的方向）调整模型参数的算法——梯度下降算法。

要最小化经验风险 R ¯ ( f ) ，等同于最小化损失函数，在机器学习中，损失函数可以写成每个样本的损失函数的总和：

其中 θ 表示模型中的所有参数，现在我们要最小化 L ( θ ) ，我们首先想到的是求解导数，我们把这个 L 对 θ 的导数记作 L ′ ( θ ) 或者 d L d θ , 导数 L ′ ( θ ) 就代表了函数 L ( θ ) 在 θ 处的斜率，我们可以把函数的输入输出关联性用斜率来描述：

L ( θ + α ) ≈ L ( θ ) + α L ′ ( θ )

s i g n ( α ) = − s i g n ( L ′ ( θ ) )

L ( θ + α ) = L ( θ ) − | α L ′ ( θ ) |

这种通过向导数的反方向移动一小步来最小化目标函数（在我们机器学习中，也就是损失函数）的方法，我们称之为梯度下降（gradient descent）。

对于神经网络这种复杂的模型来说，模型包含了很多参数，所以这里的 θ 就表示一个参数集合，或者说参数向量，所以我们要求的导数就变成了包含所有参数的偏导数的向量 ▽ θ L ( θ ) 。

这里的 α 就可以理解为我们进行梯度下降的过程中的步长了，我们将学习的步长称为学习率（learning rate） , 它描述了梯度下降的速度。

▌小结

在本文中，我们没有介绍任何一种具体的机器学习算法和模型，但是我们快速的了解了机器学习任务中的重要成分和结构，以下我们来进行一个小的总结：

首先，机器学习是用来完成特定的任务的:比如说手写字识别，行人检测，房价预测等等。这个任务必须要有一定的性能度量，比如说识别精度，预测误差等等。

然后，为了处理这个任务，我们需要设计模型，这个模型能够从数据中基于一定的策略 (比如说经验风险最小化原则) 和一定的算法 (比如说梯度下降算法) 去学习一个函数。

最后，这个函数要能够处理这个任务中的各种各样的情况（包括没有出现在训练集中的情况），这个模型要有很好的泛化能力，这样，我们的机器学习任务就成功了。

▌小结

机器学习入门概览

▌基本概念

▌监督学习

经验风险最小化

模型，过拟合，欠拟合

“一定的算法”–>梯度下降算法

相关内容