浅谈主动学习(Active Learning)

2020 年 6 月 18 日 凡人机器学习


1
背景概述


在机器学习领域有很多学习模式,比方说监督学习、半监督学习、强化学习、无监督学习等。平时大家接触比较多的一般都是监督学习,在监督学习里面,比方说要做个人和鱼的图像分类模型,假设有200张图片,那就需要把这200张样本都打好标记再训练。


监督学习存在很多问题,比如最直接的一点,当样本打标成本很高的时候,比如要标记一个人脸,可能需要在图片上打上百个点,用监督学习很消耗资源。


主动学习(Active Learning)很好地解决了这个问题,主动学习的本质是让训练样本的利用率最大化,今天就来介绍下主动学习的一些内容。


2
Active Learning基本原理


ActiveLearning的基本逻辑很好理解,就是构建一个打标和训练流程的闭环,有点类似于boosting算法。


在ActiveLearning中,不需要训练样本全部打标,可以先打标部分样本,然后跑一次分类模型,接着对未打标样本做一次预测。可以根据预测结果将未打标样本分成两类,一类是不确定性大,也就是信息熵大的样本,另一类是不确定性小但是信息熵也小的样本。然后针对信息熵大的样本再次训练。


这里面有个问题,什么叫不确定性大的样本呢?还是举文章开篇的例子,假设做人和鱼的分类模型,什么样的样本是不确定性高的呢?当然是哪种很难分辨人还是鱼的样本,比如美人鱼,哈哈。


总结下,ActiveLearning的本质就是先标记部分样本,然后训练一个简单分类模型,通过这个模型找到高信息熵样本并打标,然后再重新用新训练集finetune模型。


3
业务价值


ActiveLearning显而易见的一个业务价值就是比较节省数据打标资源。很多论文已经讲了ActiveLearning在一些场景下的优势。


我个人感觉,ActiveLearning会在一些数据样本打标代价很高的场景落地,比如金融风控领域的负样本模型训练、图像语音的模型训练。


另外,一些云端机器学习平台产品如果可以集成Active Learning的能力对客户是很有吸引力的。虽然我还没机会做这种产品的设计,但是可以预想到未来云上的机器学习平台,能否对高信息熵样本做主动学习,将是一个重要的用户抓手。



登录查看更多
31

相关内容

主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习、最优实验设计。“学习模块”和“选择策略”是主动学习算法的2个基本且重要的模块。 主动学习是“一种学习方法,在这种方法中,学生会主动或体验性地参与学习过程,并且根据学生的参与程度,有不同程度的主动学习。” (Bonwell&Eison 1991)Bonwell&Eison(1991) 指出:“学生除了被动地听课以外,还从事其他活动。” 在高等教育研究协会(ASHE)的一份报告中,作者讨论了各种促进主动学习的方法。他们引用了一些文献,这些文献表明学生不仅要做听,还必须做更多的事情才能学习。他们必须阅读,写作,讨论并参与解决问题。此过程涉及三个学习领域,即知识,技能和态度(KSA)。这种学习行为分类法可以被认为是“学习过程的目标”。特别是,学生必须从事诸如分析,综合和评估之类的高级思维任务。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
2019年主动学习有哪些进展?答案在这三篇论文里
【学界】虚拟对抗训练:一种新颖的半监督学习正则化方法
GAN生成式对抗网络
10+阅读 · 2019年6月9日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
半监督学习背景下的对抗生成网络
论智
6+阅读 · 2018年9月10日
【领域报告】主动学习年度进展|VALSE2018
深度学习大讲堂
15+阅读 · 2018年6月12日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
Representation Learning on Network 网络表示学习笔记
全球人工智能
5+阅读 · 2017年9月30日
Arxiv
9+阅读 · 2019年4月19日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
Arxiv
22+阅读 · 2018年8月30日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
5+阅读 · 2017年10月27日
VIP会员
相关资讯
2019年主动学习有哪些进展?答案在这三篇论文里
【学界】虚拟对抗训练:一种新颖的半监督学习正则化方法
GAN生成式对抗网络
10+阅读 · 2019年6月9日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
半监督学习背景下的对抗生成网络
论智
6+阅读 · 2018年9月10日
【领域报告】主动学习年度进展|VALSE2018
深度学习大讲堂
15+阅读 · 2018年6月12日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
Representation Learning on Network 网络表示学习笔记
全球人工智能
5+阅读 · 2017年9月30日
相关论文
Arxiv
9+阅读 · 2019年4月19日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
Arxiv
22+阅读 · 2018年8月30日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
5+阅读 · 2017年10月27日
Top
微信扫码咨询专知VIP会员