由于神经网络的日益普及,对神经网络预测的信心变得越来越重要。然而,基本的神经网络不会给出确定性估计,也不会受到信心过度或不足的影响。许多研究人员一直致力于理解和量化神经网络预测中的不确定性。因此,不同类型和来源的不确定性已被识别,并提出了各种方法来测量和量化神经网络中的不确定性。本工作对神经网络中的不确定性估计进行了全面的概述,综述了该领域的最新进展,突出了当前的挑战,并确定了潜在的研究机会。它旨在给任何对神经网络中的不确定性估计感兴趣的人一个广泛的概述和介绍,而不预设在这一领域有先验知识。对不确定性的主要来源进行了全面的介绍,并将它们分为可约模型不确定性和不可约数据不确定性。本文介绍了基于确定性神经网络、贝叶斯神经网络、神经网络集成和测试时间数据增强等方法对这些不确定性的建模,并讨论了这些领域的不同分支和最新进展。对于实际应用,我们讨论不确定性的不同措施,校准神经网络的方法,并给出现有基线和实现的概述。来自不同领域广泛挑战的不同例子,提供了实际应用中有关不确定性的需求和挑战的概念。此外,讨论了当前用于任务和安全关键的现实世界应用的方法的实际限制,并展望了未来的步骤,以更广泛地使用这些方法。

https://www.zhuanzhi.ai/paper/9a9009dae03438c7a71e0bc1b54de0fa

成为VIP会员查看完整内容
0
30

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

人工神经网络在解决特定刚性任务的分类问题时,通过不同训练阶段的广义学习行为获取知识。由此产生的网络类似于一个静态的知识实体,努力扩展这种知识而不针对最初的任务,从而导致灾难性的遗忘。

持续学习将这种范式转变为可以在不同任务上持续积累知识的网络,而不需要从头开始再训练。我们关注任务增量分类,即任务按顺序到达,并由清晰的边界划分。我们的主要贡献包括:

(1) 对持续学习技术的分类和广泛的概述;

(2) 一个持续学习器稳定性-可塑性权衡的新框架;

(3) 对11种最先进的持续学习方法和4条基准进行综合实验比较。

考虑到微型Imagenet和大规模不平衡的非自然主义者以及一系列识别数据集,我们以经验的方式在三个基准上仔细检查方法的优缺点。我们研究了模型容量、权重衰减和衰减正则化的影响,以及任务呈现的顺序,并从所需内存、计算时间和存储空间等方面定性比较了各种方法。

https://www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年来,据报道,机器学习模型在个人任务上表现出甚至超过人类水平的表现,如雅达利游戏[1]或物体识别[2]。虽然这些结果令人印象深刻,但它们是在静态模型无法适应其行为的情况下获得的。因此,这需要在每次有新数据可用时重新启动训练过程。在我们的动态世界中,这种做法对于数据流来说很快就变得难以处理,或者可能由于存储限制或隐私问题而只能暂时可用。这就需要不断适应和不断学习的系统。人类的认知就是这样一个系统的例证,它具有顺序学习概念的倾向。通过观察例子来重新审视旧的概念可能会发生,但对保存这些知识来说并不是必要的,而且尽管人类可能会逐渐忘记旧的信息,但完全丢失以前的知识很少被证明是[3]。相比之下,人工神经网络则不能以这种方式学习:在学习新概念时,它们会遭遇对旧概念的灾难性遗忘。为了规避这一问题,人工神经网络的研究主要集中在静态任务上,通常通过重组数据来确保i.i.d.条件,并通过在多个时期重新访问训练数据来大幅提高性能。

持续学习研究从无穷无尽的数据流中学习的问题,其目标是逐步扩展已获得的知识,并将其用于未来[4]的学习。数据可以来自于变化的输入域(例如,不同的成像条件),也可以与不同的任务相关联(例如,细粒度的分类问题)。持续学习也被称为终身学习[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,顺序学习[10],[11],[12]或增量学习[13],[14],[15],[16],[17],[18],[19]。主要的标准是学习过程的顺序性质,只有一小部分输入数据来自一个或几个任务,一次可用。主要的挑战是在不发生灾难性遗忘的情况下进行学习:当添加新的任务或域时,之前学习的任务或域的性能不会随着时间的推移而显著下降。这是神经网络中一个更普遍的问题[20]的直接结果,即稳定性-可塑性困境,可塑性指的是整合新知识的能力,以及在编码时保持原有知识的稳定性。这是一个具有挑战性的问题,不断学习的进展使得现实世界的应用开始出现[21]、[22]、[23]。

为了集中注意力,我们用两种方式限制了我们的研究范围。首先,我们只考虑任务增量设置,其中数据按顺序分批到达,一个批对应一个任务,例如要学习的一组新类别。换句话说,我们假设对于一个给定的任务,所有的数据都可以同时用于离线训练。这使得对所有训练数据进行多个时期的学习成为可能,反复洗刷以确保i.i.d.的条件。重要的是,无法访问以前或将来任务的数据。在此设置中优化新任务将导致灾难性的遗忘,旧任务的性能将显著下降,除非采取特殊措施。这些措施在不同情况下的有效性,正是本文所要探讨的。此外,任务增量学习将范围限制为一个多头配置,每个任务都有一个独占的输出层或头。这与所有任务共享一个头的更有挑战性的类增量设置相反。这在学习中引入了额外的干扰,增加了可供选择的输出节点的数量。相反,我们假设已知一个给定的样本属于哪个任务。

其次,我们只关注分类问题,因为分类可以说是人工神经网络最既定的任务之一,使用相对简单、标准和易于理解的网络体系结构具有良好的性能。第2节对设置进行了更详细的描述,第7节讨论了处理更一般设置的开放问题。

成为VIP会员查看完整内容
0
33

在人类中,注意力是所有感知和认知操作的核心属性。考虑到我们处理竞争性信息来源的能力有限,注意力机制选择、调整和关注与行为最相关的信息。

几十年来,哲学、心理学、神经科学和计算机科学都在研究注意力的概念和功能。在过去的六年中,这一特性在深度神经网络中得到了广泛的研究。目前,深度学习的研究进展主要体现在几个应用领域的神经注意力模型上。

本研究对神经注意力模型的发展进行了全面的概述和分析。我们系统地回顾了该领域的数百个架构,识别并讨论了那些注意力显示出重大影响的架构。我们亦制订了一套自动化方法体系,并将其公诸于众,以促进这方面的研究工作。通过批判性地分析650部文献,我们描述了注意力在卷积、循环网络和生成模型中的主要用途,识别了使用和应用的共同子组。

此外,我们还描述了注意力在不同应用领域的影响及其对神经网络可解释性的影响。最后,我们列出了进一步研究的可能趋势和机会,希望这篇综述能够对该领域的主要注意力模型提供一个简明的概述,并指导研究者开发未来的方法,以推动进一步的改进。

成为VIP会员查看完整内容
0
104

深度学习在实践中的显著成功,从理论的角度揭示了一些重大的惊喜。特别是,简单的梯度方法很容易找到非凸优化问题的接近最优的解决方案,尽管在没有任何明确的努力控制模型复杂性的情况下,这些方法提供了近乎完美的训练数据,这些方法显示了优秀的预测精度。我们推测这些现象背后有特定的原理: 过度参数化允许梯度方法找到插值解,这些方法隐含地施加正则化,过度参数化导致良性过拟合,也就是说,尽管过拟合训练数据,但仍能准确预测。在这篇文章中,我们调查了统计学习理论的最新进展,它提供了在更简单的设置中说明这些原则的例子。我们首先回顾经典的一致收敛结果以及为什么它们不能解释深度学习方法的行为方面。我们在简单的设置中给出隐式正则化的例子,在这些例子中,梯度方法可以得到完美匹配训练数据的最小范数函数。然后我们回顾显示良性过拟合的预测方法,关注二次损失的回归问题。对于这些方法,我们可以将预测规则分解为一个用于预测的简单组件和一个用于过拟合的尖状组件,但在良好的设置下,不会损害预测精度。我们特别关注神经网络的线性区域,其中网络可以用一个线性模型来近似。在这种情况下,我们证明了梯度流的成功,并考虑了双层网络的良性过拟合,给出了精确的渐近分析,精确地证明了过参数化的影响。最后,我们强调了在将这些见解扩展到现实的深度学习设置中出现的关键挑战。

https://www.zhuanzhi.ai/paper/324cdbb68665c1675a05bc147210d8c8

成为VIP会员查看完整内容
0
39

摘要

深度半监督学习是一个快速发展的领域,具有一系列的实际应用。

本文从模型设计和无监督损失函数的角度对深度半监督学习方法的基本原理和最新进展进行了全面的综述。

我们首先提出了一种深度半监督学习分类法,该分类法对现有方法进行分类,包括深度生成方法、一致性正则化方法、基于图的方法、伪标记方法和混合方法。然后,我们根据损失类型、贡献和架构差异对这些方法进行了详细的比较。

在总结近年来研究进展的基础上,进一步探讨了现有方法的不足之处,并提出了一些探索性的解决方案。

https://arxiv.org/pdf/2103.00550.pdf

引言

深度学习一直是一个活跃的研究领域,在模式识别[1]、[2]、数据挖掘[3]、统计学习[4]、计算机视觉[5]、[6]、自然语言处理[7]、[8]等领域有着丰富的应用。它利用了大量高质量的标记数据,在[9]、[10]的理论和实践中都取得了巨大的成功,特别是在监督学习场景中。然而,标签样品通常是困难的,昂贵的,或耗时获得。标记过程通常需要专家的努力,这是训练一个优秀的全监督深度神经网络的主要限制之一。例如,在医疗任务中,测量是用昂贵的机器进行的,标签是由多个人类专家耗时分析得出的。如果只有少数标记的样本可用,建立一个成功的学习系统是具有挑战性的。相比之下,未标记的数据通常是丰富的,可以很容易地或廉价地获得。因此,它是可取的利用大量的未标记的数据,以改善学习性能给定的少量标记样本。因此,半监督学习(semi-supervised learning, SSL)一直是近十年来机器学习领域的研究热点。

SSL是一种学习范式,它与构建使用标记数据和未标记数据的模型有关。与只使用标记数据的监督学习算法相比,SSL方法可以通过使用额外的未标记实例来提高学习性能。通过对监督学习算法和非监督学习算法的扩展,可以很容易地获得SSL算法。SSL算法提供了一种从未标记的示例中探索潜在模式的方法,减轻了对大量标记[13]的需求。根据系统的关键目标函数,可以有半监督分类、半监督聚类或半监督回归。我们提供的定义如下:

  • 半监督分类。给定一个包含有标记的实例和无标记的实例的训练数据集,半监督分类的目标是同时从有标记的和无标记的数据训练分类器,这样它比只在有标记的数据上训练的有监督分类器更好。

  • 半监督聚类。假设训练数据集由未标记的实例和一些关于聚类的监督信息组成,半监督聚类的目标是获得比单独从无标记数据聚类更好的聚类。半监督聚类也称为约束聚类。

  • 半监督回归。给定一个包含有标记的实例和没有标记的实例的训练数据集,半监督回归的目标是从一个单独带有标记数据的回归算法改进回归算法的性能,该回归算法预测一个实值输出,而不是一个类标签。

为了更清楚、更具体地解释SSL,我们重点研究了图像分类问题。本调查中描述的思想可以毫无困难地适应其他情况,如对象检测,语义分割,聚类,或回归。因此,在本研究中,我们主要回顾了利用未标记数据进行图像分类的方法。

SSL方法有很多种,包括生成模型[14],[15],半监督支持向量机[16],[17],基于图的方法[18],[19],[20],[21]和联合训练[22]。我们向感兴趣的读者推荐[12]、[23],它们提供了传统SSL方法的全面概述。目前,深度神经网络已经在许多研究领域占据主导地位。重要的是要采用经典的SSL框架,并为深度学习设置开发新的SSL方法,这将导致深度半监督学习(DSSL)。DSSL研究了如何通过深度神经网络有效地利用标记数据和未标记数据。已经提出了相当多的DSSL方法。根据半监督损失函数和模型设计最显著的特征,我们将DSSL分为五类,即生成法、一致性正则化法、基于图的方法、伪标记方法和混合方法。本文献使用的总体分类法如图1所示。

在[12],[23]中有很多具有代表性的作品,但是一些新兴的技术并没有被纳入其中,尤其是在深度学习取得巨大成功之后。例如,深度半监督方法提出了新的技术,如使用对抗训练生成新的训练数据。另外,[13]侧重于统一SSL的评价指标,[24]只回顾了SSL的一部分,没有对SSL进行全面的概述。最近,Ouali等人的综述[25]给出了与我们类似的DSSL概念。然而,它不能与现有的方法相比,基于它们的分类,并提供了未来的趋势和存在的问题的观点。在前人研究的基础上,结合最新的研究,我们将对基础理论进行综述,并对深度半监督方法进行比较。总结一下,我们的贡献如下:

我们对DSSL方法进行了详细的回顾,并介绍了主要DSSL方法的分类、背景知识和变体模型。人们可以很快地掌握DSSL的前沿思想。

我们将DSSL方法分为生成方法、一致性正则化方法、基于图形的方法、伪标记方法和混合方法,每一种方法都有特定的类型。我们回顾了每一类的变体,并给出了标准化的描述和统一的示意图。

我们确定了该领域的几个开放问题,并讨论了DSSL的未来方向。

成为VIP会员查看完整内容
0
46

知识是理解世界的一种正式方式,为下一代人工智能(AI)提供人类水平的认知和智能。知识的表现形式之一是实体之间的结构关系。关系抽取(RE)是信息抽取的一个子任务,是自动获取这些重要知识的有效方法,在自然语言处理(NLP)中起着至关重要的作用。其目的是从自然语言文本中识别实体之间的语义关系。到目前为止,已有一些关于RE的研究,其中基于深度神经网络(DNNs)的技术已成为该研究的主流技术。其中,基于DNNs的监督式和远程监督是目前最流行、最可靠的两种关系提取方法。本文首先介绍了一些一般概念,然后从两个方面对关系提取中的DNNs进行了全面的概述:一是对标准关系提取系统进行改进的监督式,二是采用DNNs设计句子编码器和去噪方法的远程监督式。在此基础上,我们进一步介绍了一些新的研究方法,描述了一些最新的研究趋势,并讨论了未来可能的研究方向。

https://www.zhuanzhi.ai/paper/bce5fadda556d0501fd5b47127fc6c91

成为VIP会员查看完整内容
0
33

深度学习通常被描述为一个实验驱动的领域,并不断受到缺乏理论基础的批评。这个问题已经部分地被大量的文献解决了,这些文献至今没有被很好地组织起来。本文对深度学习理论的最新进展进行了综述和整理。文献可分为六类: (1)基于模型复杂度和容量的深度学习泛化; (2)用于建模随机梯度下降及其变量的随机微分方程及其动力学系统,其特征是深度学习的优化和泛化,部分受到贝叶斯推理启发; (3)驱动动力系统轨迹的损失的几何结构; (4)深度神经网络的过参数化从积极和消极两个方面的作用; (5)网络架构中几种特殊结构的理论基础; (6)对伦理和安全及其与普遍性的关系的日益关注。

https://arxiv.org/pdf/2012.10931.pdf

概述

深度学习可以广义定义为使用人工神经网络从经验中发现知识以进行预测或决策的一系列算法[138]。经验的规范形式可以是人类注解的电子记录作为数据集,也可以是学习者或电子环境之间的交互作用,取决于场景[169]。在深度学习中,一般的人工神经网络通常是把一个由非线性激活函数组成的序列的权值矩阵连接成一个网络,这种网络具有相当大的参数大小。

深度学习的术语是由Dechter[62]引入机器学习,然后由Aizenberg等人[5]引入脑启发算法,其中几个主要概念可以追溯到20世纪40年代早期。深度学习的研究在20世纪40 - 60年代[162,111,199]和80 - 90年代[201]经历了两次上升后下降。第三次和当前的浪潮开始于2006年[24,114,196],一直持续到现在。最近的浪潮已经从本质上重塑了许多真实世界的应用领域,包括计算机视觉[110]、自然语言处理[63,184]、语音处理[64]、3D点云处理[98]、数据挖掘[232]、推荐系统[247]、自动驾驶汽车[152,215]、医疗诊断[135,209]和药物发现[43]。

然而,到目前为止,深度学习的发展严重依赖实验,缺乏坚实的理论基础。深度学习机制的许多方面仍然是未知的。我们不断地惊讶地发现启发式方法可以在广泛的领域实现出色的性能,尽管有时也相当不稳定。与此同时,直觉方法往往未被证实,甚至未被验证。这种做法是可以容忍的,并且在深度学习研究中已经变得普遍。这种黑盒特性给深度学习应用带来了未知的风险。这种不了解在很大程度上削弱了我们识别、管理和预防算法导致的灾难的能力,并进一步严重损害了我们将最近的进展应用于许多工业部门的信心,特别是在安全关键领域,如自动驾驶汽车、医疗诊断和药物发现。这也对深度学习算法设计的未来发展产生了冲击。

理论基础的一个主要部分是泛化,泛化是指通过深度学习算法对未见数据进行预测,在训练数据上训练好的模型的能力[224,169]。由于训练数据不能覆盖未来的所有情况,良好的泛化性保证了所学的模型能够处理未知事件。在长尾事件经常出现并有可能造成致命灾难的地方,这一点尤其重要。

统计学习理论建立了基于假设复杂度的泛化理论[224,169]。这些工具能解决深度学习理论中的问题吗?答案是否定的。传统工具通常根据假设复杂度构建泛化边界,如vc维[28,223]、Rademacher复杂度[130,129,21]和覆盖数[73,104]。在经典的结果中,这些复杂性很大程度上依赖于模型的大小。这就引入了奥卡姆剃刀原理:

如无必要,勿增实体

即,只要模型能够拟合训练样本,就需要找到一个足够小的模型来防止过拟合。然而,深度学习模型通常具有非常大的模型规模,这有时会使泛化界甚至大于损失函数的潜在最大值。此外,根据Occam 's razor原理,可泛化性与模型大小之间存在正相关关系,而这在深度学习中已经不存在了。相比之下,更深更广的网络往往具有优越的性能[38]。深度学习卓越的泛化能力与其极端的过参数化之间的矛盾,就像传统复杂学习理论的一朵“云”。

早期的工作试图建立深度学习的理论基础[172,90,22,20,23,158,11],但很大程度上由于深度学习研究的广泛发展而停滞不前。

最近的研究始于Zhang等人在2017年的工作[244]。作者进行了系统的实验来探索深度神经网络的泛化能力。他们表明,即使训练标签是随机的,神经网络也能几乎完美地拟合训练数据。如何从理论上解释深度神经网络的成功,是学习理论界关注的一个重要话题。Kawaguchi等人[122]讨论了许多关于深度神经网络在容量大、复杂性、算法可能不稳定、非鲁棒性和极小值尖锐的情况下仍具有出色泛化能力的开放问题。作者也提出了一些解决问题的见解。从那时起,深度学习理论的重要性得到了广泛的认识。大量文献的出现建立了深度学习的理论基础。在本文中,我们回顾了相关文献,并将其归纳为以下六类:

  • **基于复杂度和容量的方法分析深度学习泛化性。**传统的统计学习理论根据假设空间的复杂度,建立了一系列泛化误差(泛化界)的上界,如vc维[28,223],Rademacher复杂度[130,129,21],覆盖数[73,104]。通常,这些泛化范围明确地依赖于模型的大小。他们认为,控制模型的大小可以帮助模型更好地泛化。然而,深度学习模型庞大的模型规模也使得泛化范围显得空洞。因此,如果我们能够开发出大小无关的假设复杂度度量和泛化边界是非常值得期待的。一种有前景的方法是刻画深度学习中可以学习的“有效”假设空间的复杂性。有效假设空间可以明显小于整个假设空间。因此,我们可以期望得到一个小得多的泛化保证。

  • **随机梯度下降(SGD)及其变体模型的随机偏微分方程(SDE)在深度学习优化算法中占主导地位。**这些SDEs的动态系统决定了训练神经网络中权值的轨迹,其稳定分布代表了学习网络。通过SDEs及其动力学,许多工作为深度学习的优化和泛化提供了保障。“有效”假设空间正是“SGD能找到的”假设空间。因此,通过SGD研究深度学习的普遍性将是直接的。此外,这一系列的方法部分受到贝叶斯推断的启发。这与前面的变异推断相似,后者以优化的方式解决了贝叶斯推断,以解决缩放问题。这种随机梯度方法和贝叶斯推断之间的相互作用将有助于这两个领域的发展。

  • **高度复杂的经验风险曲面的几何结构驱动动态系统的轨迹。**损失曲面观的几何形状在驱动SDEs的轨迹方面起着重要作用:(1)损失的导数是SDEs的组成部分;(2)损失作为SDEs的边界条件。因此,理解损失面是建立深度学习理论基础的关键一步。通常,“正则化”问题的可学习性和优化能力是有保证的。1“正则化”可以用许多术语来描述,包括凸性、李普希茨连续性和可微性。然而,在深度学习中,这些因素不再得到保障,至少不是很明显。神经网络通常由大量的非线性激活组成。激活过程中的非线性使得损失曲面极其不光滑和非凸。所建立的凸优化保证失效。损失曲面令人望而却步的复杂性,使社区长时间难以接触到损失曲面的几何形状,甚至深度学习理论。然而,损失面复杂的几何形状恰恰表征了深度学习的行为。通过损失曲面是理解深度学习的“捷径”。

  • 深度神经网络的过参数化作用。 过度参数化通常被认为是通过基于复杂性的方法为深度学习开发有意义的泛化边界的主要障碍。然而,最近的研究表明,过度参数化将对塑造深度学习的损失曲面做出主要贡献——使损失曲面更加光滑,甚至“类似”凸。此外,许多研究也证明了神经网络在极端过参数化情况下与一些更简单的模型(如高斯核)等效。

  • **网络架构中几种特殊结构的理论基础。**在前面的综述中,我们主要关注的结果一般代表所有的神经网络。同时,深度神经网络的设计涉及到许多特殊的技术。这些结构也对深度学习的卓越性能做出了重要贡献。我们回顾了卷积神经网络、递归神经网络和置换不变/等变函数网络的理论成果。

  • **深入关注伦理和安全以及它们与深度学习理论的关系。**深度学习已经被部署在越来越广泛的应用领域。其中一些涉及高度隐私的个人数据,如手机上的图像和视频、健康数据和最终记录。其他一些场景可能需要深度学习来提供高度敏感的决策,比如抵押贷款审批、大学入学和信用评估。此外,研究表明,深度学习模型容易受到对抗性例子的攻击。如何保护深度学习系统免受隐私保护、公平保护和对抗攻击等方面的破坏是非常重要的。

本文结构

本文综述了深度学习理论基础研究的最新进展。我们承认有一些论文回顾了深度学习理论。Alom等人[9]对深度学习中使用的技术进行了调查。Sun[214]综述了深度学习中的优化理论。E等人[81]总结了深度学习中最优化的近似和ademacher复杂性、损失面以及收敛和隐式正则化相关的结果和挑战。我们的调查是最全面的。我们以独特的视角组织文献,并为未来的作品提供新的见解。

深度学习的极好的泛化性就像传统复杂学习理论的“云”:深度学习的过度参数化使得几乎所有现有的工具都变得空洞。现有的工作试图通过三个主要途径来解决这一问题: (1)开发大小无关的复杂性测度,它可以表征可学习的“有效”假设空间的复杂性,而不是整个假设空间。第二节讨论了相关工作; (2) 基于随机微分函数和相关损失函数的几何性质,利用深度学习中占主导地位的优化器随机梯度方法对所学假设进行建模。有关的工作在第3及4节检讨; (3) 过度参数化出人意料地为损失函数带来了许多良好的性质,进一步保证了优化和泛化性能。相关工作在第5节中给出。与此同时,第6节回顾了网络体系结构特殊结构的理论基础。

机器学习的另一个重要方面是对道德和安全问题的日益关注,包括隐私保护、对抗鲁棒性和公平保护。具体地说,隐私保护和对抗鲁棒性与可泛化性密切相关:泛化性好通常意味着隐私保护能力强;更稳健的算法可能会有。本文还讨论了在深度学习场景中,如何理解这些问题之间的相互作用。相关工作将在第7节讨论。

成为VIP会员查看完整内容
0
71

通过人工神经网络等获得的预测具有很高的准确性,但人类经常将这些模型视为黑盒子。对于人类来说,关于决策制定的洞察大多是不透明的。在医疗保健或金融等高度敏感领域,对决策的理解至关重要。黑盒子背后的决策要求它对人类来说更加透明、可问责和可理解。这篇综述论文提供了基本的定义,概述了可解释监督机器学习(SML)的不同原理和方法。我们进行了最先进的综述,回顾过去和最近可解释的SML方法,并根据介绍的定义对它们进行分类。最后,我们通过一个解释性的案例研究来说明原则,并讨论未来的重要方向。

https://www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c

目前人工智能(AI)模型的准确性是显著的,但准确性并不是最重要的唯一方面。对于高风险的领域,对模型和输出的详细理解也很重要。底层的机器学习和深度学习算法构建的复杂模型对人类来说是不透明的。Holzinger等人(2019b)指出,医学领域是人工智能面临的最大挑战之一。对于像医疗这样的领域,深刻理解人工智能的应用是至关重要的,对可解释人工智能(XAI)的需求是显而易见的。

可解释性在许多领域很重要,但不是在所有领域。我们已经提到了可解释性很重要的领域,例如卫生保健。在其他领域,比如飞机碰撞避免,算法多年来一直在没有人工交互的情况下运行,也没有给出解释。当存在某种程度的不完整时,需要可解释性。可以肯定的是,不完整性不能与不确定性混淆。不确定性指的是可以通过数学模型形式化和处理的东西。另一方面,不完全性意味着关于问题的某些东西不能充分编码到模型中(Doshi-Velez和Kim(2017))。例如,刑事风险评估工具应该是公正的,它也应该符合人类的公平和道德观念。但伦理学是一个很宽泛的领域,它是主观的,很难正式化。相比之下,飞机避免碰撞是一个很容易理解的问题,也可以被精确地描述。如果一个系统能够很好地避免碰撞,就不用再担心它了。不需要解释。

本文详细介绍了可解释SML的定义,并为该领域中各种方法的分类奠定了基础。我们区分了各种问题定义,将可解释监督学习领域分为可解释模型、代理模型拟合和解释生成。可解释模型的定义关注于自然实现的或通过使用设计原则强制实现的整个模型理解。代理模型拟合方法近似基于黑盒的局部或全局可解释模型。解释生成过程直接产生一种解释,区分局部解释和全局解释。

综上所述,本文的贡献如下:

  • 对五种不同的解释方法进行形式化,并对整个解释链的相应文献(分类和回归)进行回顾。
  • 可解释性的原因,审查重要领域和可解释性的评估
  • 这一章仅仅强调了围绕数据和可解释性主题的各个方面,比如数据质量和本体
  • 支持理解不同解释方法的连续用例
  • 回顾重要的未来方向和讨论

成为VIP会员查看完整内容
0
68

在优化和决策过程中,不确定性量化(UQ)在减少不确定性方面起着至关重要的作用。它可以应用于解决科学和工程中的各种实际应用。贝叶斯逼近和集成学习技术是目前文献中使用最广泛的两种UQ方法。在这方面,研究者们提出了不同的UQ方法,并在计算机视觉(如自动驾驶汽车和目标检测)、图像处理(如图像恢复)、医学图像分析(如医学图像分类和分割)、自然语言处理(如文本分类、社交媒体文本和再犯风险评分)、生物信息学得到广泛应用。本研究综述了UQ方法在深度学习中的最新进展。此外,我们还研究了这些方法在强化学习(RL)中的应用。然后,我们概述了UQ方法的几个重要应用。最后,我们简要地强调了UQ方法面临的基本研究挑战,并讨论了该领域的未来研究方向。

https://arxiv.org/abs/2011.06225

摘要:

在日常情景中,我们处理很多领域的不确定性,从投资机会和医疗诊断到体育比赛和天气预报,目的是根据收集的观察和不确定的领域知识进行决策。现在,我们可以依靠使用机器和深度学习技术开发的模型来量化不确定性来完成统计推断[1]。在人工智能(AI)系统使用[2]之前,对其效能进行评估是非常重要的。这种模型的预测具有不确定性,除了存在不确定性的归纳假设外,还容易出现噪声和错误的模型推断。因此,在任何基于人工智能的系统中,以一种值得信赖的方式表示不确定性是非常可取的。通过有效地处理不确定性,这样的自动化系统应该能够准确地执行。不确定性因素在人工智能中扮演着重要的角色

不确定性的来源是当测试和训练数据不匹配,由于类重叠或由于数据[6]中存在噪声而产生的不确定性。估计知识的不确定性要比数据的不确定性困难得多,数据的不确定性自然是通过极大似然训练来度量的。预测中的不确定性来源对于解决不确定性估计问题[7]至关重要。不确定性有两个主要来源,在概念上称为aleatoric和epistemic不确定性8

数据中的不可约不确定性导致预测中的不确定性是一种可选不确定性(也称为数据不确定性)。这种类型的不确定性不是模型的属性,而是数据分布的固有属性;因此它是不可约的。不确定性的另一种类型是认知不确定性(也称为知识不确定性),它是由于知识和数据的不足而产生的。人们可以定义模型来回答基于模型预测中的不同人类问题。在数据丰富的情况下,有大量的数据收集,但它可能是信息差的[10]。在这种情况下,可以使用基于人工智能的方法定义有效的模型,表征数据特征。通常这些数据是不完整的,有噪声的,不一致的和多模态的[1]。

不确定性量化(UQ)是当今许多关键决策的基础。没有UQ的预测通常是不可靠和不准确的。为了理解深度学习(DL)[11],[12]过程生命周期,我们需要理解UQ在DL中的作用。DL模型首先收集可用于决策过程的最全面和潜在相关的数据集。DL场景的设计是为了满足某些性能目标,以便在使用标记数据训练模型之后选择最合适的DL架构。迭代训练过程优化不同的学习参数,这些参数将被“调整”,直到网络提供令人满意的性能水平。

在涉及的步骤中,有几个不确定因素需要加以量化。很明显的不确定性这些步骤如下:(i)选择和训练数据的集合,(ii)训练数据的完整性和准确性,(3)理解DL(或传统机器学习)模型与性能范围及其局限性,和(iv)不确定性对应基于操作数据的性能模型[13]。数据驱动的方法,如与UQ相关的DL提出了至少四组重叠的挑战:(1)缺乏理论,(2)缺乏临时模型,(3)对不完美数据的敏感性,以及(4)计算费用。为了缓解这些挑战,有时会采用模型变异性研究和敏感性分析等特殊解决方案。不确定性估计和量化在数字学习和传统机器学习中得到了广泛的研究。在下面,我们提供一些最近的研究的简要总结,这些研究检验了处理不确定性的各种方法的有效性。

图2给出了三种不同不确定度模型[9](MC dropout, Boostrap模型和GMM模型)的示意图比较。此外,不确定性感知模型(BNN)与OoD分类器的两种图形表示如图3所示。

在大数据时代,ML和DL,智能使用不同的原始数据有巨大的潜力,造福于广泛的领域。然而,UQ在不同的ML和DL方法可以显著提高其结果的可靠性。Ning等人总结并分类了不确定性下数据驱动优化范式的主要贡献。可以看出,本文只回顾了数据驱动的优化。在另一项研究中,Kabir等人[16]回顾了基于神经网络的UQ。作者关注概率预测和预测区间(pi),因为它们是UQ文献中最广泛使用的技术之一。

我们注意到,从2010年到2020年(6月底),在各个领域(如计算机视觉、图像处理、医学图像分析、信号处理、自然语言处理等)发表了超过2500篇关于AI中UQ的论文。与以往UQ领域的文献综述不同,本研究回顾了最近发表的使用不同方法定量AI (ML和DL)不确定性的文章。另外,我们很想知道UQ如何影响真实案例,解决AI中的不确定性有助于获得可靠的结果。与此同时,在现有的研究方法中寻找重要的谈话是一种很好的方式,为未来的研究指明方向。在这方面,本文将为ML和DL中UQ的未来研究人员提供更多的建议。我们调查了UQ领域应用于ML和DL方法的最新研究。因此,我们总结了ML和DL中UQ的一些现有研究。值得一提的是,本研究的主要目的并不是比较提出的不同UQ方法的性能,因为这些方法是针对不同的数据和特定的任务引入的。由于这个原因,我们认为比较所有方法的性能超出了本研究的范围。因此,本研究主要关注DL、ML和强化学习(RL)等重要领域。因此,本研究的主要贡献如下:

  • 据我们所知,这是第一篇关于ML和DL方法中使用的UQ方法的全面综述论文,值得该领域的研究人员使用。
  • 对新提出的UQ方法进行了全面调研。
  • 此外,UQ方法的重要应用的主要类别也进行了介绍
  • 指出了UQ方法的主要研究空白。
  • 最后,讨论了很少确定的未来发展方向。
成为VIP会员查看完整内容
0
55

自监督学习由于能够避免标注大规模数据集的成本而受到欢迎。它能够采用自定义的伪标签作为监督,并将学习到的表示用于几个下游任务。具体来说,对比学习最近已成为计算机视觉、自然语言处理(NLP)等领域的自主监督学习方法的主要组成部分。它的目的是将同一个样本的增广版本嵌入到一起,同时试图将不同样本中的嵌入推开。这篇论文提供了一个广泛的自我监督的方法综述,遵循对比的方法。本研究解释了在对比学习设置中常用的借口任务,以及到目前为止提出的不同架构。接下来,我们将对图像分类、目标检测和动作识别等多个下游任务的不同方法进行性能比较。最后,我们总结了目前方法的局限性和需要进一步的技术和未来方向取得实质性进展。

https://arxiv.org/abs/2011.00362

概述:

随着深度学习技术的发展,它已成为目前大多数智能系统的核心组件之一。深度神经网络(DNNs)能够从现有的大量数据中学习丰富的模式,这使得它在大多数计算机视觉(CV)任务(如图像分类、目标检测、图像分割、动作识别)以及自然语言处理(NLP)任务(如句子分类、语言模型、机器翻译等)中成为一种引人注目的方法。然而,由于手工标注数百万个数据样本的工作量很大,从标记数据中学习特征的监督方法已经几乎达到了饱和。这是因为大多数现代计算机视觉系统(受监督的)都试图通过查找大型数据集中数据点及其各自注释之间的模式来学习某种形式的图像表示。像GRAD-CAM[1]这样的工作提出了一种技术,可以为模型所做的决策提供可视化的解释,从而使决策更加透明和可解释。

传统的监督学习方法很大程度上依赖于可用的带注释的训练数据的数量。尽管有大量的可用数据,但缺乏注解促使研究人员寻找替代方法来利用它们。这就是自监督方法在推动深度学习的进程中发挥重要作用的地方,它不需要昂贵的标注,也不需要学习数据本身提供监督的特征表示。

监督学习不仅依赖昂贵的注释,而且还会遇到泛化错误、虚假的相关性和对抗攻击[2]等问题。最近,自监督学习方法集成了生成和对比方法,这些方法能够利用未标记的数据来学习潜在的表示。一种流行的方法是提出各种各样的代理任务,利用伪标签来帮助学习特征。诸如图像inpainting、灰度图像着色、拼图游戏、超分辨率、视频帧预测、视听对应等任务已被证明是学习良好表示的有效方法。

生成式模型在2014年引入生成对抗网络(GANs)[3]后得到普及。这项工作后来成为许多成功架构的基础,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。这些方法激发了更多的研究人员转向使用无标签数据在自监督的设置下训练深度学习模型。尽管取得了成功,研究人员开始意识到基于GAN的方法的一些并发症。它们很难训练,主要有两个原因: (a)不收敛——模型参数发散很多,很少收敛; (b)鉴别器太过成功,导致生成网络无法产生类似真实的假信号,导致学习无法继续。此外,生成器和判别器之间需要适当的同步,以防止判别器收敛和生成器发散。

成为VIP会员查看完整内容
0
39

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在持续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。

https://www.zhuanzhi.ai/paper/e5bee7a1e93a93ef9139966643317e1c

概述:

随着实用机器学习系统的不断成熟,社区发现了对持续学习[1]、[2]的兴趣。与广泛练习的孤立学习不同,在孤立学习中,系统的算法训练阶段被限制在一个基于先前收集的i.i.d数据集的单一阶段,持续学习需要利用随着时间的推移而到来的数据的学习过程。尽管这种范式已经在许多机器学习系统中找到了各种应用,回顾一下最近关于终身机器学习[3]的书,深度学习的出现似乎已经将当前研究的焦点转向了一种称为“灾难性推理”或“灾难性遗忘”的现象[4],[5],正如最近的评论[6],[7],[8],[9]和对深度持续学习[8],[10],[11]的实证调查所表明的那样。后者是机器学习模型的一个特殊效应,机器学习模型贪婪地根据给定的数据群更新参数,比如神经网络迭代地更新其权值,使用随机梯度估计。当包括导致数据分布发生任何变化的不断到达的数据时,学习到的表示集被单向引导,以接近系统当前公开的数据实例上的任何任务的解决方案。自然的结果是取代以前学到的表征,导致突然忘记以前获得的信息。

尽管目前的研究主要集中在通过专门机制的设计来缓解持续深度学习中的这种遗忘,但我们认为,一种非常不同形式的灾难性遗忘的风险正在增长,即忘记从过去的文献中吸取教训的危险。尽管在连续的训练中保留神经网络表示的努力值得称赞,但除了只捕获灾难性遗忘[12]的度量之外,我们还高度关注了实际的需求和权衡,例如包括内存占用、计算成本、数据存储成本、任务序列长度和训练迭代次数等。如果在部署[14]、[15]、[16]期间遇到看不见的未知数据或小故障,那么大多数当前系统会立即崩溃,这几乎可以被视为误导。封闭世界的假设似乎无所不在,即认为模型始终只会遇到与训练过程中遇到的数据分布相同的数据,这在真实的开放世界中是非常不现实的,因为在开放世界中,数据可以根据不同的程度变化,而这些变化是不现实的,无法捕获到训练集中,或者用户能够几乎任意地向系统输入预测信息。尽管当神经网络遇到不可见的、未知的数据实例时,不可避免地会产生完全没有意义的预测,这是众所周知的事实,已经被暴露了几十年了,但是当前的努力是为了通过不断学习来规避这一挑战。选择例外尝试解决识别不可见的和未知的示例、拒绝荒谬的预测或将它们放在一边供以后使用的任务,通常总结在开放集识别的伞下。然而,大多数现有的深度连续学习系统仍然是黑盒,不幸的是,对于未知数据的错误预测、数据集的异常值或常见的图像损坏[16],这些系统并没有表现出理想的鲁棒性。

除了目前的基准测试实践仍然局限于封闭的世界之外,另一个不幸的趋势是对创建的持续学习数据集的本质缺乏理解。持续生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及类增量持续学习的大部分工作(如[12]中给出的工作,[23],[24],[25],[26],[27],[28])一般调查sequentialized版本的经过时间考验的视觉分类基准如MNIST [29], CIFAR[30]或ImageNet[31],单独的类只是分成分离集和序列所示。为了在基准中保持可比性,关于任务排序的影响或任务之间重叠的影响的问题通常会被忽略。值得注意的是,从邻近领域的主动机器学习(半监督学习的一种特殊形式)中吸取的经验教训,似乎并没有整合到现代的连续学习实践中。在主动学习中,目标是学会在让系统自己查询接下来要包含哪些数据的挑战下,逐步地找到与任务解决方案最接近的方法。因此,它可以被视为缓解灾难性遗忘的对抗剂。当前的持续学习忙于维护在每个步骤中获得的信息,而不是无休止地积累所有的数据,而主动学习则关注于识别合适的数据以纳入增量训练系统的补充问题。尽管在主动学习方面的早期开创性工作已经迅速识别出了通过使用启发式[32]、[33]、[34]所面临的强大应用的挑战和陷阱,但后者在深度学习[35]、[36]、[37]、[38]的时代再次占据主导地位,这些挑战将再次面临。

在这项工作中,我们第一次努力建立一个原则性和巩固的深度持续学习、主动学习和在开放的世界中学习的观点。我们首先单独回顾每一个主题,然后继续找出在现代深度学习中似乎较少受到关注的以前学到的教训。我们将继续争论,这些看似独立的主题不仅从另一个角度受益,而且应该结合起来看待。在这个意义上,我们建议将当前的持续学习实践扩展到一个更广泛的视角,将持续学习作为一个总括性术语,自然地包含并建立在先前的主动学习和开放集识别工作之上。本文的主要目的并不是引入新的技术或提倡一种特定的方法作为通用的解决方案,而是对最近提出的神经网络[39]和[40]中基于变分贝叶斯推理的方法进行了改进和扩展,以说明一种走向全面框架的可能选择。重要的是,它作为论证的基础,努力阐明生成建模作为深度学习系统关键组成部分的必要性。我们强调了在这篇论文中发展的观点的重要性,通过实证证明,概述了未来研究的含义和有前景的方向。

成为VIP会员查看完整内容
0
90
小贴士
相关资讯
相关论文
Kayo Yin,Amit Moryossef,Julie Hochgesang,Yoav Goldberg,Malihe Alikhani
0+阅读 · 7月22日
Jiapeng Wang,Chongyu Liu,Lianwen Jin,Guozhi Tang,Jiaxin Zhang,Shuaitao Zhang,Qianying Wang,Yaqiang Wu,Mingxiang Cai
7+阅读 · 1月24日
Marina Danilevsky,Kun Qian,Ranit Aharonov,Yannis Katsis,Ban Kawas,Prithviraj Sen
17+阅读 · 2020年10月1日
A Survey on Bayesian Deep Learning
Hao Wang,Dit-Yan Yeung
42+阅读 · 2020年7月2日
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
90+阅读 · 2020年3月18日
Object Detection in 20 Years: A Survey
Zhengxia Zou,Zhenwei Shi,Yuhong Guo,Jieping Ye
38+阅读 · 2019年5月13日
Self-Driving Cars: A Survey
Claudine Badue,Rânik Guidolini,Raphael Vivacqua Carneiro,Pedro Azevedo,Vinicius Brito Cardoso,Avelino Forechi,Luan Ferreira Reis Jesus,Rodrigo Ferreira Berriel,Thiago Meireles Paixão,Filipe Mutz,Thiago Oliveira-Santos,Alberto Ferreira De Souza
31+阅读 · 2019年1月14日
Analysis Methods in Neural Language Processing: A Survey
Yonatan Belinkov,James Glass
4+阅读 · 2019年1月14日
Joaquin Vanschoren
115+阅读 · 2018年10月8日
A. Cetoli,S. Bragaglia,A. D. O'Harney,M. Sloan
15+阅读 · 2018年2月14日
Top