【基础】集成学习 (Ensemble Learning)

2020 年 2 月 7 日 深度学习自然语言处理

点击上方,选择星标置顶,每天给你送干货

阅读大概需要3分钟

跟随小博主,每天进步一丢丢

编辑: 深度学习爱好者社区


集成学习方法是结合多个模型算法,从而提高整体的准确性,进而得到更好的预测结果。

比如,我们熟知的随机森林就是一种集成学习的方法,它结合了多个决策树的预测结果,而每一个决策树又是用随机的不同的数据训练而成。所以,从这种意义上来讲,随机森林的预测表现一般比单个决策树的表现要好

集成学习的概念应该不难理解,这个想法广泛的存在于我们的日常生活当中。

比如,当我们需要买一台新的笔记本的时候,我们往往是根据自己的需要来选择自己想要的配置,像多大的内存,多大的硬盘,以及什么样的处理器等等。

再比如,当我们决定买一辆新车的时候,我们也是根据自己的喜好和需要,选择不同的配置,是不是需要有GPS,有video的,什么样的发动机,...

集成学习因为结合了多种模型,从一定程度上来讲,集成模型减少了噪音,方差和偏差,而这正是机器学习模型预测过程中产生错误的主要原因。如果我们能降低减少这些产生误差的原因,自然就可以提高模型的整体预测水平,而这也正是集成方法的重点思想所在。

我们还依然记得盲人摸象的故事。故事中,每个人只是摸到了大象的某个局部位置,当然如果只根据所摸到的这个局部位置来预测这是什么物体的话,自然会有偏差,当然不能很好的真实的猜出来。而如果我们结合了所有盲人所得到的信息,把这些信息结合在一起,而进行猜测是什么物体的话,准确率自然会大大提升。

因此,我们再一次看到了集成学习方法的思想所在。它是一种降低方差,偏差和噪音的方法。基本上,每种模型都是在某些情况下表现很好,而在某些特定情况下表现的不好。这样,通过结合这几种单独的模型,那么集成的模型就会某种程度上克服这些缺点,从而整体上胜出任何一个单独的模型。

集成学习模型被广泛的应用于各个领域之中,像土地覆盖图,人脸识别,面部表情识别等等。而比较流行的集成方法有随机森林, XGBoost, 贝叶森模型...



方便交流学习,备注: 昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多: 机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦


推荐阅读:
【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文
【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing
【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译
【一分钟论文】Semi-supervised Sequence Learning半监督序列学习
【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing
详解Transition-based Dependency parser基于转移的依存句法解析器
经验 | 初入NLP领域的一些小建议
学术 | 如何写一篇合格的NLP论文
干货 | 那些高产的学者都是怎样工作的?
一个简单有效的联合模型
近年来NLP在法律领域的相关研究工作




让更多的人知道你“在看”
登录查看更多
4

相关内容

集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
199+阅读 · 2020年2月11日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
201+阅读 · 2020年2月7日
专知会员服务
116+阅读 · 2019年12月24日
常用的模型集成方法介绍:bagging、boosting 、stacking
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
深度学习基础之LSTM
全球人工智能
28+阅读 · 2017年12月18日
ML笔记 | 零基础学懂机器学习(六)
七月在线实验室
5+阅读 · 2017年11月2日
超级干货 :一文读懂集成学习(附学习资源)
数据分析
9+阅读 · 2017年10月30日
【五分钟学AI】模型融合model ensemble
七月在线实验室
4+阅读 · 2017年10月26日
为什么『无监督集成学习』乏人问津?
AI研习社
10+阅读 · 2017年10月24日
机器学习(17)之集成学习原理总结
机器学习算法与Python学习
19+阅读 · 2017年9月16日
深度 | 从Boosting到Stacking,概览集成学习的方法与性能
深度学习世界
3+阅读 · 2017年8月28日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
Arxiv
53+阅读 · 2018年12月11日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
17+阅读 · 2018年4月2日
VIP会员
相关资讯
常用的模型集成方法介绍:bagging、boosting 、stacking
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
深度学习基础之LSTM
全球人工智能
28+阅读 · 2017年12月18日
ML笔记 | 零基础学懂机器学习(六)
七月在线实验室
5+阅读 · 2017年11月2日
超级干货 :一文读懂集成学习(附学习资源)
数据分析
9+阅读 · 2017年10月30日
【五分钟学AI】模型融合model ensemble
七月在线实验室
4+阅读 · 2017年10月26日
为什么『无监督集成学习』乏人问津?
AI研习社
10+阅读 · 2017年10月24日
机器学习(17)之集成学习原理总结
机器学习算法与Python学习
19+阅读 · 2017年9月16日
深度 | 从Boosting到Stacking,概览集成学习的方法与性能
深度学习世界
3+阅读 · 2017年8月28日
相关论文
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
Arxiv
53+阅读 · 2018年12月11日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
17+阅读 · 2018年4月2日
Top
微信扫码咨询专知VIP会员