【干货】机器学习和深度学习概念入门（下）

会员服务 ·

【干货】机器学习和深度学习概念入门（下）

2017 年 12 月 31 日 机器学习研究会

目录

1 人工智能、机器学习、深度学习三者关系

2 什么是人工智能

3 什么是机器学习

4 机器学习之监督学习

5 机器学习之非监督学习

6 机器学习之半监督学习

7 机器学习之强化学习

8 什么是深度学习

9 总结

阅读时间

8min - 15min

机器学习之强化学习

强化学习（Reinforcement Learning）也叫再励学习、评价学习，在智能控制和机器人领域有许多应用。输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式。在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见算法包括 Q-Learning、TD 算法（时间差分学习，Temporal Difference）、SARSA 算法。

在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。

强化学习灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。它的本质就是解决“决策（decision making）”问题，即学会自动进行决策。它在没有任何label告诉算法应该怎么做的情况下，通过先尝试做出一些行为——然后得到一个结果，通过判断这个结果是对还是错来对之前的行为进行反馈。由这个反馈来调整之前的行为，通过不断的调整算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

重点：强化学习其实就是自动进行决策，并且可以做连续决策。强化学习有很多应用，比如自动直升机，机器人控制，市场决策，工业控制，无人驾驶，AlphaGo，玩游戏，还在制造业、库存处理、电商、广告、推荐、金融、医疗等与我们生活息息相关的领域也有应用。例如一家日本公司 Fanuc，工厂机器人在拿起一个物体时，会捕捉这个过程的视频，记住它每次操作的行动，操作成功还是失败了，积累经验，下一次可以更快更准地采取行动。

举个例子：以小孩学习走路为例，走路时候小孩需要知道先进行决定先迈那条腿，如果第一步作对了，那么就会得到奖励，错了，那么记录下来，再进行第二次走路时候进行学习更正。又比如在向用户推荐新闻文章的任务中，非监督式会找到用户先前已经阅读过类似的文章并向他们推荐其一，而强化学习将通过向用户先推荐少量的新闻，并不断获得来自用户的反馈，最后构建用户可能会喜欢的文章的“知识图”。

什么是深度学习

深度学习（Deep Learning）是机器学习的一种，是它的一个大的分支，深度学习的概念由Hinton等人于2006年提出，深度学习的概念源于人工神经网络的研究。

既然叫做学习，那么自然与我们人类的学习过程有相似之处，其实就是仿生学，仿照我们人类大脑的思维方式以及神经网络的接收和反馈方式进行计算机模拟深度学习的。

我们的大脑就是一个深度学习的超级计算机。深度学习实际上指的的深度神经网络学习，普通神经网络由于训练代价较高，一般只有3-4层，而深度神经网络由于采用了特殊的训练方法加上一些技术算法，可以达到8-10层。深度神经网络能够捕捉到数据中的深层联系，从而能够得到更精准的模型，而这些联系不容易被普通的机器学习方法所发觉。

用官方的含义就是：含多隐层的多层感知器就是一种深度学习结构。

深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分。不同的学习框架下建立的学习模型很是不同。

例如，卷积神经网络（Convolutional neural networks，简称CNNs）就是一种深度的监督学习下的机器学习模型，而深度置信网（Deep Belief Nets，简称DBNs）就是一种无监督学习下的机器学习模型。

深度学习整个过程就是数据收集、数据清洗处理、传入数据进行训练模型和学习优化、经过不断优化调节后形成高准确率的识别分类模型，供相应的领域进行传入相关数据进行应用分类。

转自：机器学习算法与自然语言处理

完整内容请点击“阅读原文”

登录查看更多