摘要—随着数据可用性的扩展,机器学习(ML)在学术界和工业界取得了显著的突破。然而,不平衡的数据分布在各种原始数据中普遍存在,并且通过偏倚决策过程严重影响了机器学习的性能。为了深入理解不平衡数据并促进相关研究和应用,本文系统分析了各种现实世界的数据格式,并将现有研究针对不同数据格式的工作归纳为四个主要类别:数据重平衡、特征表示、训练策略和集成学习。这一结构化分析帮助研究人员全面理解不平衡在不同数据格式中的广泛存在,从而为实现特定研究目标铺平了道路。我们还提供了相关开源库的概述,突出当前面临的挑战,并提出了旨在推动该关键研究领域未来进展的新见解。 关键词—机器学习、不平衡数据学习、深度学习。

I. 引言

随着数据可用性的扩展,机器学习(ML)已成为学术界和工业界技术进步的前沿。这些机器学习模型被精心设计,以适应特定的数据分布,并随后应用于各种下游任务,从预测分析到自动决策系统。因此,机器学习模型的性能受到训练数据质量和分布的深刻影响。具有代表性、多样化且经过精心预处理的数据确保模型不仅准确,而且在不同的环境和挑战中具有鲁棒性和广泛的泛化能力。 然而,自然数据分布本质上复杂且经常存在缺陷。在这些挑战中,不平衡数据分布尤其突出,反映了各个领域普遍存在和自然产生的差异。例如,在金融领域,欺诈行为的实例相较于合法交易来说相对稀少,这使得模型难以准确地检测这些异常。在医疗领域,稀有疾病在医学数据集中可能被低估,这为开发稳健的诊断模型带来了重大挑战。在工业领域,质量控制系统常常需要识别稀有的产品缺陷,而这些缺陷可能会被大量合格产品所掩盖。这些情境不仅使机器学习模型的训练更加复杂,而且对系统的鲁棒性提出了更高要求。 通常,不平衡的数据分布显著影响机器学习模型的性能和实用性。这些模型通常在高资源组上表现良好,这些组的数据充足,但在低资源组上表现较差,后者的数据稀缺,导致数据分布的界限模糊。因此,尽管机器学习模型可能在整体上表现令人满意,但在这些低资源组中的有效性会显著降低。然而,这些低资源组往往在现实世界的应用中更为重要。例如,在医学诊断中,由于数据不足未能检测到稀有疾病,可能导致漏诊和不充分的患者护理。同样,在金融系统中,无法识别稀有的欺诈实例可能导致重大财务损失和安全性受损。机器学习模型忽视这些稀有但关键的实例,降低了自动决策系统在实际应用中的效用和安全性。 为应对这些挑战,机器学习领域已提出了一系列方法,我们将其组织为四个基本类别——数据重平衡、特征表示、训练策略和集成学习——每个类别都与机器学习过程中的关键环节相对应。数据重平衡技术对于调整数据分布以更好地进行表示至关重要,采用了如过采样少数类和欠采样多数类等方法。这一调整对于防止模型过度偏向多数类样本至关重要,符合机器学习中的数据准备阶段。特征表示策略增强了准确捕捉和表示与少数类样本相关信息的能力。这一改进在特征工程阶段至关重要,使得模型能够有效地从所有样本中学习并做出预测。先进的训练策略调整学习算法,以最小化其对多数类样本的内在偏见。这一训练阶段的关键调整确保了学习过程的包容性,平等地考虑所有样本。最后,集成方法通过组合多个模型,属于机器学习过程中的模型集成部分。这些方法利用多个算法的优势,以潜在地减少由不平衡数据引发的偏差,从而提高最终模型输出的鲁棒性和准确性。通过根据机器学习的基础过程对方法进行分类,这一分类不仅有助于全面的领域调查,还阐明了这些策略背后的动机,帮助实现特定目标。此调查还探讨了不平衡在不同数据格式中的表现,包括图像、文本和图形,突出了每种格式的差异、独特的挑战和所需的适应性。这一探索至关重要,因为它加深了对每种数据格式的理解,并有助于为复杂数据格式场景制定针对性的机器学习策略。 本调查的贡献总结如下:

  • 我们提供了关于不平衡数据学习的全面文献综述,系统地概述了基于机器学习基础过程的方法。
  • 我们对不平衡在各种数据格式中的表现进行了深入分析,包括图像、文本和图形,提供了每种格式特有的挑战和方法的详细探索。
  • 我们突出了可用于解决不平衡数据问题的资源,并探讨了当前面临的挑战和未来的研究方向。这一讨论旨在帮助那些在应对不平衡问题时挣扎的研究人员,帮助他们有效和高效地开发策略。

本调查的结构安排如下:第二节对处理不平衡问题的方法进行了详细调查,并按我们的分类法进行组织;第三节广泛讨论了不平衡在各种数据格式中的表现;第四节对不平衡数据方法的评估指标进行了详细研究;第五节介绍了可用于学习不平衡数据的资源;最后,第六节总结了该领域的挑战与未来发展方向。

成为VIP会员查看完整内容
29

相关内容

视觉中的生成物理人工智能:综述
专知会员服务
27+阅读 · 1月26日
强化学习增强的大型语言模型:综述
专知会员服务
42+阅读 · 2024年12月17日
《多模态对齐与融合》综述
专知会员服务
74+阅读 · 2024年11月27日
图神经网络在金融欺诈检测中的应用综述
专知会员服务
25+阅读 · 2024年11月22日
低质量数据的多模态融合综述
专知会员服务
49+阅读 · 2024年5月4日
大型语言模型的景观:范式与微调策略的全面综述和分析
面向算法选择的元学习研究综述
专知会员服务
44+阅读 · 2023年2月11日
专知会员服务
228+阅读 · 2020年5月6日
专知会员服务
113+阅读 · 2020年3月20日
基于模型的强化学习综述
专知
34+阅读 · 2022年7月13日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
统计学常用数据类型
论智
18+阅读 · 2018年7月6日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
72+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
视觉中的生成物理人工智能:综述
专知会员服务
27+阅读 · 1月26日
强化学习增强的大型语言模型:综述
专知会员服务
42+阅读 · 2024年12月17日
《多模态对齐与融合》综述
专知会员服务
74+阅读 · 2024年11月27日
图神经网络在金融欺诈检测中的应用综述
专知会员服务
25+阅读 · 2024年11月22日
低质量数据的多模态融合综述
专知会员服务
49+阅读 · 2024年5月4日
大型语言模型的景观:范式与微调策略的全面综述和分析
面向算法选择的元学习研究综述
专知会员服务
44+阅读 · 2023年2月11日
专知会员服务
228+阅读 · 2020年5月6日
专知会员服务
113+阅读 · 2020年3月20日
相关资讯
基于模型的强化学习综述
专知
34+阅读 · 2022年7月13日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
层级强化学习概念简介
CreateAMind
18+阅读 · 2019年6月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
统计学常用数据类型
论智
18+阅读 · 2018年7月6日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
相关基金
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员