干货|台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning

会员服务 ·

干货|台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning

2017 年 8 月 13 日 机器学习研究会

台大机器学习课程笔记

Types of Learning

上节课我们主要介绍了解决线性分类问题的一个简单的方法：PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。

而对于线性不可分的情况，可以使用Pocket Algorithm来处理。

本节课将主要介绍一下机器学习有哪些种类，并进行归纳。

Learning with Different Output Space Y

我们在上节课引入的银行根据用户个人情况判断是否给他发信用卡的例子，这是一个典型的二元分类（binary classification）问题。

也就是说输出只有两个，一般y={-1, +1}，-1代表不发信用卡（负类），+1代表发信用卡（正类）。

二元分类的问题很常见，包括信用卡发放、垃圾邮件判别、患者疾病诊断、答案正确性估计等等。二元分类是机器学习领域非常核心和基本的问题。

二元分类有线性模型也有非线性模型，根据实际问题情况，选择不同的模型。

除了二元分类，也有多元分类（Multiclass Classification）问题。

顾名思义，多元分类的输出多于两个，y={1, 2, … , K}, K>2。一般多元分类的应用有数字识别、图片内容识别等等。

二元分类和多元分类都属于分类问题，它们的输出都是离散值。二对于另外一种情况，比如训练模型，预测房屋价格、股票收益多少等，这类问题的输出y=R，即范围在整个实数空间，是连续的。

这类问题，我们把它叫做回归（Regression）。最简单的线性回归是一种典型的回归模型。

除了分类和回归问题，在自然语言处理等领域中，还会用到一种机器学习问题：结构化学习（Structured Learning）。

结构化学习的输出空间包含了某种结构在里面，它的一些解法通常是从多分类问题延伸而来的，比较复杂。本系列课程不会详细介绍Structured Learning，有兴趣的读者可以自行对它进行更深入的研究。

简单总结一下，机器学习按照输出空间划分的话，包括二元分类、多元分类、回归、结构化学习等不同的类型。

其中二元分类和回归是最基础、最核心的两个类型，也是我们课程主要介绍的部分。

Learning with Different Data Label yn

如果我们拿到的训练样本D既有输入特征x，也有输出yn，那么我们把这种类型的学习称为监督式学习（Supervised Learning）。

监督式学习可以是二元分类、多元分类或者是回归，最重要的是知道输出标签yn。

与监督式学习相对立的另一种类型是非监督式学习（Unsupervised learning）。

非监督式学习是没有输出标签yn的，典型的非监督式学习包括：聚类（clustering）问题，比如对网页上新闻的自动分类；密度估计，比如交通路况分析；异常检测，比如用户网络流量监测。通常情况下，非监督式学习更复杂一些，而且非监督的问题很多都可以使用监督式学习的一些算法思想来实现。