经典的机器学习隐含地假设训练数据的标签是从一个干净的分布中采样的,这对于真实的场景来说限制太大了。然而,基于统计学习的方法可能不能很好地训练深度学习模型。因此,迫切需要设计标签噪声表示学习(LNRL)方法对带噪声标签的深度模型进行鲁棒训练。为了充分了解LNRL,我们进行了综述。我们首先从机器学习的角度阐明LNRL的形式化定义。然后,通过学习理论和实证研究的视角,找出了噪声标签影响深度模型性能的原因。在此基础上,我们将不同的LNRL方法分为三个方向。在这个统一的分类法下,我们将全面讨论不同类别的优缺点。更重要的是,我们总结了鲁棒的LNRL的基本组件,它们可以激励新的方向。最后,我们提出了LNRL可能的研究方向,如新数据集、实例依赖的LNRL和对抗性LNRL。最后,我们展望了LNRL之外的潜在方向,比如使用特征噪声、偏好噪声、领域噪声、相似性噪声、图形噪声和演示噪声进行学习。

https://arxiv.org/abs/2011.04406

标签噪声表示学习在学术界和工业界都非常重要。背后有两个原因。首先,从学习范式的本质来看,深度监督学习需要大量的有良好标签的数据,这可能需要太多的成本,尤其是对于许多初创企业来说。然而,深度无监督学习(甚至是自我监督学习)还不够成熟,无法在复杂的现实场景中很好地发挥作用。因此,作为深度弱监督学习,标签噪声表示学习自然受到了广泛的关注并成为研究的热点。其次,从数据方面来看,许多真实的场景缺乏纯粹干净的注释,比如金融数据、web数据和生物医学数据。这直接激发了研究人员探索标签噪声表示学习。

据我们所知,确实有三篇关于标签噪声的综述的工作。Frenay和Verleysen[8]专注于讨论标签噪声统计学习,而不是标签噪声表示学习。尽管Algan等人[9]和Karimi等人[10]。它们都专注于带噪声标签的深度学习,都只考虑图像(或医学图像)的分类任务。此外,他们的调查是从应用的角度写的,而不是讨论方法。为了弥补这些缺陷,我们希望对标签噪声表示学习领域做出如下贡献。

  • 从机器学习的角度,我们给出了标签噪声表示学习(LNRL)的正式定义。这个定义不仅足够通用,可以包含所有现有的LNRL,而且也足够具体,可以阐明LNRL的目标是什么以及我们如何解决它。

  • 与[9]、[10]相比,通过学习理论的视角,我们更深入地理解了为什么噪声标签会影响深度模型的性能。同时,我们报告了在噪声标签下的深度模型的泛化,这与我们的理论发现是一致的。

  • 我们进行了大量的文献综述,从表示学习开始,并在一个统一的分类,在数据,目标和优化。分析了不同类别的利弊。我们还对每个类别的见解进行了总结。

  • 基于上述观察,我们总结和讨论了鲁棒标签噪声表示学习的基本组成部分。这些可以帮助启发标签噪声表示学习的新方向。

  • 除了标签噪声表示学习,我们提出了几个有前途的未来方向,如学习噪声特征、偏好、领域、相似性、图和演示。我们希望他们能提供一些见解。

成为VIP会员查看完整内容
37

相关内容

表示学习是通过利用训练数据来学习得到向量表示,这可以克服人工方法的局限性。 表示学习通常可分为两大类,无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器(如去噪自动编码器和稀疏自动编码器等)中的隐变量作为表示。 目前出现的变分自动编码器能够更好的容忍噪声和异常值。 然而,推断给定数据的潜在结构几乎是不可能的。 目前有一些近似推断的策略。 此外,一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架,该框架使用矩阵分解来保持成对的DTW相似性。 通过学习保持DTW的shaplets,即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息,更好地捕获数据的语义结构。 孪生网络和三元组网络是目前两种比较流行的模型,它们的目标是最大化类别之间的距离并最小化了类别内部的距离。
最新《对比监督学习》综述论文,20页pdf
专知会员服务
84+阅读 · 2020年11月5日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
60+阅读 · 2020年10月27日
【COLING2020】无监督依存解析的综述论文,12页pdf
专知会员服务
16+阅读 · 2020年10月27日
专知会员服务
36+阅读 · 2020年9月27日
专知会员服务
65+阅读 · 2020年9月10日
西北大学等最新《深度主动学习》全面综述论文,30页pdf
专知会员服务
100+阅读 · 2020年7月20日
专知会员服务
184+阅读 · 2020年6月21日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
299+阅读 · 2020年6月16日
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
关于GANs在医学图像领域应用的总结
计算机视觉life
13+阅读 · 2019年7月25日
生成对抗网络的最新研究进展
AI科技评论
5+阅读 · 2019年2月6日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
自动机器学习(AutoML)最新综述
PaperWeekly
34+阅读 · 2018年11月7日
Semantic Annotation for Tabular Data
Arxiv
0+阅读 · 2020年12月15日
Arxiv
0+阅读 · 2020年12月13日
Arxiv
4+阅读 · 2019年4月17日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
最新《对比监督学习》综述论文,20页pdf
专知会员服务
84+阅读 · 2020年11月5日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
60+阅读 · 2020年10月27日
【COLING2020】无监督依存解析的综述论文,12页pdf
专知会员服务
16+阅读 · 2020年10月27日
专知会员服务
36+阅读 · 2020年9月27日
专知会员服务
65+阅读 · 2020年9月10日
西北大学等最新《深度主动学习》全面综述论文,30页pdf
专知会员服务
100+阅读 · 2020年7月20日
专知会员服务
184+阅读 · 2020年6月21日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
299+阅读 · 2020年6月16日
相关资讯
微信扫码咨询专知VIP会员