深度神经网络(DNNs)在计算机视觉和自然语言处理等多个领域基于大量高质量数据取得了显著的成功。然而,现实世界的数据收集总是不可避免地含有噪声,且有报告指出DNNs会无意中记住大部分这类噪声,导致严重的性能下降。虽然已经积极开发了对DNNs具有抗噪声的学习方法,但大多数工作集中在改善模型训练阶段。然而,这类噪声数据不仅在模型训练期间,而且在整个模型开发过程中包括样本选择、清洗和标记过程中干扰DNNs。例如,来自分布之外的未标记噪声数据由于人类标记者无法对其进行任何标记,从而浪费了标记成本,而未过滤的标记噪声数据可以显著降低模型性能。这突出了开发一种系统方法以避免此类噪声并在模型开发过程中利用高度信息化的特征和示例的重要性。

在这篇论文中,我们提出了一个系统框架,优先考虑信息特征和示例以增强开发过程的每个阶段。具体来说,我们优先考虑信息特征和示例,并提高特征学习、数据标记和数据选择的性能。我们首先提出一种方法,仅通过使用辅助的分布之外数据提取与解决目标任务固有相关的信息特征。我们使用分布之外数据中的特征去除目标分布中的噪声特征。接下来,我们介绍一种方法,从未标记的噪声数据中优先考虑信息示例,以减少主动学习的标记成本。为了解决纯度-信息两难问题,即选择信息示例的尝试会导致选择许多噪声示例,我们提出了一个元模型,找到纯度和信息性之间最佳平衡。最后,我们建议一种从标记的噪声数据中优先考虑信息示例的方法,以保持数据选择的性能。对于标记的图像噪声数据,我们提出了一种考虑邻近样本置信度的数据选择方法,以保持最先进的重新标记模型的性能。对于标记的文本噪声数据,我们提出了一种考虑多样性的指令选择方法,用于对提示下的指令质量进行排名,从而提高对齐的大型语言模型的性能。总的来说,我们的统一框架使深度学习开发过程对噪声数据具有鲁棒性,从而有效地减轻了现实应用中噪声特征和示例的影响。

成为VIP会员查看完整内容
30

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】可解释深度学习的结构化表示,119页pdf
专知会员服务
64+阅读 · 2023年12月18日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
最新《动态网络嵌入》综述论文,25页pdf
专知
31+阅读 · 2020年6月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
15+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员