机器学习模型在有偏差的数据集上训练时是有偏差的。最近提出了许多方法,以减轻被确定为先验的偏差。然而,在现实世界的应用中,标注偏差不仅耗时而且具有挑战性。本论文考虑了三种不同的场景,并提出了学习鲁棒模型的新算法。这些算法是有效的,因为它们不需要明确的偏差注释,从而实现了实用的机器学习。

首先,我们引入了一种算法,该算法对从多个环境中收集的数据进行操作,其中偏差特征和标签之间的相关性可能会有所不同。我们表明,当使用在一个环境上训练的分类器对来自不同环境的例子进行预测时,它的错误是隐藏偏见的信息。

然后,我们利用这些错误来创建一组示例,这些示例的插值结果只具有稳定的相关性。我们的算法在四种文本和图像分类任务上实现了最新的技术。然后我们考虑无法访问多个环境的情况,这是新任务或资源有限任务的常见场景。我们证明,在现实世界的应用中,相关的任务往往有类似的偏见。在此基础上,我们提出了一种算法,从资源丰富的源任务中推断出偏差特征,并将这种知识转移到目标任务中。与横跨5个数据集的15个基线相比,我们的方法始终提供显著的性能提升。

最后,我们研究了只给出一组输入标签对的自动偏差检测。我们的算法学习分割数据集,使得在训练分割上训练的分类器不能泛化到测试分割上。性能差距为测量学习特征的偏差程度提供了一个智能体,因此可以用来识别未知偏差。在六个NLP和视觉任务上的实验表明,我们的方法能够产生与人类识别的偏差相关的虚假分裂。

成为VIP会员查看完整内容
56

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
81+阅读 · 2022年10月19日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
82+阅读 · 2022年9月20日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
57+阅读 · 2022年9月3日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
51+阅读 · 2022年8月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
Arxiv
1+阅读 · 2022年10月20日
Arxiv
19+阅读 · 2020年7月13日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
相关基金
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员