Active learning promises to alleviate the massive data needs of supervised machine learning: it has successfully improved sample efficiency by an order of magnitude on traditional tasks like topic classification and object recognition. However, we uncover a striking contrast to this promise: across 5 models and 4 datasets on the task of visual question answering, a wide variety of active learning approaches fail to outperform random selection. To understand this discrepancy, we profile 8 active learning methods on a per-example basis, and identify the problem as collective outliers -- groups of examples that active learning methods prefer to acquire but models fail to learn (e.g., questions that ask about text in images or require external knowledge). Through systematic ablation experiments and qualitative visualizations, we verify that collective outliers are a general phenomenon responsible for degrading pool-based active learning. Notably, we show that active learning sample efficiency increases significantly as the number of collective outliers in the active learning pool decreases. We conclude with a discussion and prescriptive recommendations for mitigating the effects of these outliers in future work.


翻译:主动学习承诺减轻监督机学习的大量数据需求:它成功地通过专题分类和对象识别等传统任务规模的顺序提高了抽样效率。然而,我们发现与这一承诺形成鲜明对比:在5个模型和4个关于直观回答任务的数据集中,各种积极学习方法都未能优于随机选择。为了理解这一差异,我们以每个实例的方式描述8个积极学习方法,并找出问题,作为集体外科者 -- -- 积极学习方法倾向于获取但模型不学习的一组例子(例如,在图像中询问文字或需要外部知识的问题)。我们通过系统化的模拟试验和定性可视化,核实集体外科者是造成基于集体积极学习减少现象的普遍现象。值得注意的是,我们表明随着积极学习库的集体外科者人数减少,积极学习的抽样效率显著提高。我们最后提出了减少这些外科者在未来工作中的影响的讨论和规范性建议。

0
下载
关闭预览

相关内容

专知会员服务
59+阅读 · 2021年4月12日
多标签学习的新趋势(2020 Survey)
专知会员服务
44+阅读 · 2020年12月6日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
MIT新书《强化学习与最优控制》
专知会员服务
281+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月3日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关VIP内容
专知会员服务
59+阅读 · 2021年4月12日
多标签学习的新趋势(2020 Survey)
专知会员服务
44+阅读 · 2020年12月6日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
MIT新书《强化学习与最优控制》
专知会员服务
281+阅读 · 2019年10月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年9月3日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
Top
微信扫码咨询专知VIP会员