In some industrial applications such as fraud detection, the performance of common supervision techniques may be affected by the poor quality of the available labels : in actual operational use-cases, these labels may be weak in quantity, quality or trustworthiness. We propose a benchmark to evaluate the natural robustness of different algorithms taken from various paradigms on artificially corrupted datasets, with a focus on noisy labels. This paper studies the intrinsic robustness of some leading classifiers. The algorithms under scrutiny include SVM, logistic regression, random forests, XGBoost, Khiops. Furthermore, building on results from recent literature, the study is supplemented with an investigation into the opportunity to enhance some algorithms with symmetric loss functions.


翻译:在一些工业应用中,如欺诈检测,通用监督技术的运用可能受到现有标签质量差的影响:在实际操作使用个案中,这些标签在数量、质量或可信度方面可能薄弱。我们提出了一个基准,以评价从人工腐蚀数据集的各种范式中得出的不同算法的自然稳健性,重点是噪音标签。本文研究一些主要分类者的内在稳健性。所审查的算法包括SVM、物流回归、随机森林、XGBoost、Khiops。此外,根据最近文献的结果,研究还补充了对加强某些具有对称损失功能的算法的机会的调查。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Signal Detection in Degree Corrected ERGMs
Arxiv
0+阅读 · 2021年8月20日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Signal Detection in Degree Corrected ERGMs
Arxiv
0+阅读 · 2021年8月20日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
8+阅读 · 2018年5月15日
Top
微信扫码咨询专知VIP会员