近年来,机器学习取得了显著进展,提供了一些新功能,比如创建复杂的、可计算的文本和图像表示。这些功能催生了新产品,如基于图像内容的图像搜索、多种语言之间的自动翻译,甚至是真实图像和声音的合成。同时,机器学习已经在企业中被广泛采用,用于经典的用例(例如,预测客户流失、贷款违约和制造设备故障)。

在机器学习取得成功的地方,它是非常成功的。

在许多情况下,这种成功可以归因于对大量训练数据的监督学习(结合大量计算)。总的来说,有监督的学习系统擅长于一项任务:预测。当目标是预测一个结果,并且我们有很多这个结果的例子,以及与它相关的特征时,我们可能会转向监督学习。

随着机器学习的普及,它在业务流程中的影响范围已经从狭窄的预测扩展到决策制定。机器学习系统的结果经常被用来设定信用限额,预测制造设备故障,以及管理我们的各种新闻推送。当个人和企业试图从这些复杂和非线性系统提供的信息中学习时,更多(和更好)的可解释性方法已经被开发出来,这是非常重要的。

然而,仅仅基于预测的推理有一些基本的限制。例如,如果银行提高客户的信用额度会发生什么?这些问题不能用建立在先前观察到的数据上的相关模型来回答,因为它们涉及到客户选择的可能变化,作为对信用限额变化的反应。在很多情况下,我们的决策过程的结果是一种干预——一种改变世界的行动。正如我们将在本报告中展示的,纯粹相关的预测系统不具备在这种干预下进行推理的能力,因此容易产生偏差。对于干预下的数据决策,我们需要因果关系。

即使对于纯粹的预测系统(这是监督学习的强项),应用一些因果思维也会带来好处。根据因果关系的定义,它们是不变的,这意味着它们在不同的情况和环境中都是正确的。对于机器学习系统来说,这是一个非常理想的特性,在机器学习系统中,我们经常根据我们在训练中没有看到的数据进行预测;我们需要这些系统具有适应性和健壮性。

因果推理和机器学习的交集是一个迅速扩展的研究领域。它已经产生了可供主流采用的功能——这些功能可以帮助我们构建更健壮、可靠和公平的机器学习系统。

本书介绍了因果推理,因为它涉及很多数据科学和机器学习工作。我们引入因果图,着重于消除理解的概念障碍。然后我们利用这个理解来探索关于不变预测的最新想法,它给高维问题带来了因果图的一些好处。通过附带的原型,我们展示了即使是经典的机器学习问题,如图像分类,也可以从因果推理工具中受益。

成为VIP会员查看完整内容
0
104

相关内容

在监督模式下训练的深度模型在各种任务上都取得了显著的成功。在标记样本有限的情况下,自监督学习(self-supervised learning, SSL)成为利用大量未标记样本的新范式。SSL在自然语言和图像学习任务中已经取得了很好的效果。最近,利用图神经网络(GNNs)将这种成功扩展到图数据的趋势。

在本综述论文中,我们提供了使用SSL训练GNN的不同方法的统一回顾。具体来说,我们将SSL方法分为对比模型和预测模型。

在这两类中,我们都为方法提供了一个统一的框架,以及这些方法在框架下的每个组件中的不同之处。我们对GNNs SSL方法的统一处理揭示了各种方法的异同,为开发新的方法和算法奠定了基础。我们还总结了不同的SSL设置和每个设置中使用的相应数据集。为了促进方法开发和实证比较,我们为GNNs中的SSL开发了一个标准化测试床,包括通用基线方法、数据集和评估指标的实现。

https://www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18

引言

深度模型以一些数据作为输入,并训练输出期望的预测。训练深度模型的一种常用方法是使用有监督的模式,在这种模式中有足够的输入数据和标签对。

然而,由于需要大量的标签,监督训练在许多现实场景中变得不适用,标签是昂贵的,有限的,甚至是不可用的。

在这种情况下,自监督学习(SSL)支持在未标记数据上训练深度模型,消除了对过多注释标签的需要。当没有标记数据可用时,SSL可以作为一种从未标记数据本身学习表示的方法。当可用的标记数据数量有限时,来自未标记数据的SSL可以用作预训练过程,在此过程之后,标记数据被用来为下游任务微调预训练的深度模型,或者作为辅助训练任务,有助于任务的执行。

最近,SSL在数据恢复任务中表现出了良好的性能,如图像超分辨率[1]、图像去噪[2,3,4]和单细胞分析[5]。它在语言序列[6,7,8]、图像[9,10,11,12]、带有序列模型的图[13,14]等不同数据类型的表示学习方面也取得了显著进展。这些方法的核心思想是定义前置训练任务,以捕获和利用输入数据的不同维度之间的依赖关系,如空间维度、时间维度或通道维度,具有鲁棒性和平滑性。Doersch等人以图像域为例,Noroozi和Favaro[16],以及[17]等人设计了不同的前置任务来训练卷积神经网络(CNNs)从一幅图像中捕捉不同作物之间的关系。Chen等人的[10]和Grill等人的[18]训练CNN捕捉图像的不同增强之间的依赖关系。

根据训练任务的设计,SSL方法可以分为两类;即对比模型和预测模型。这两个类别之间的主要区别是对比模型需要数据-数据对来进行训练,而预测模型需要数据-标签对,其中标签是自生成的,如图1所示。对比模型通常利用自监督来学习数据表示或对下游任务进行预训练。有了这些数据-数据对,对比模型就能区分出正面对和负面对。另一方面,预测模型是在监督的方式下训练的,其中标签是根据输入数据的某些属性或选择数据的某些部分生成的。预测模型通常由一个编码器和一个或多个预测头组成。当应用于表示学习或预训练方法时,预测模型的预测头在下游任务中被删除。

在图数据分析中,SSL可能非常重要,它可以利用大量未标记的图,如分子图[19,20]。随着图神经网络的快速发展[21,22,23,24,25,26,27],图神经网络的基本组成[28,29,30,31,32,33]等相关领域[34,35]得到了深入的研究,并取得了长足的进展。相比之下,在GNNs上应用SSL仍然是一个新兴领域。由于数据结构的相似性,很多GNN的SSL方法都受到了图像领域方法的启发,如DGI[36]和图自动编码器[37]。然而,由于图结构数据的唯一性,在GNN上应用SSL时存在几个关键的挑战。为了获得良好的图表示并进行有效的预训练,自监督模型可以从图的节点属性和结构拓扑中获取必要的信息。对于对比模型来说,由于自监督学习的GPU内存问题并不是图形的主要关注点,关键的挑战在于如何获得良好的图形视图以及针对不同模型和数据集的图形编码器的选择。对于预测模型,至关重要的是应该生成什么标签,以便了解非平凡的表示,以捕获节点属性和图结构中的信息。

为了促进方法论的发展和促进实证比较,我们回顾GNN的SSL方法,并为对比和预测方法提供了统一的观点。我们对这一问题的统一处理,可以揭示现有方法的异同,启发新的方法。我们还提供了一个标准化的测试,作为一个方便和灵活的开源平台,用于进行实证比较。我们将本次综述论文总结如下:

  • 我们提供关于图神经网络SSL方法的彻底和最新的回顾。据我们所知,我们的综述查首次回顾了关于图数据的SSL。

  • 我们将GNN现有的对比学习方法与一般框架统一起来。具体来说,我们从互信息的角度统一对比目标。从这个新的观点来看,不同的对比学习方式可以看作是进行三种转换来获得观点。我们回顾了理论和实证研究,并提供见解来指导框架中每个组成部分的选择。

  • 我们将SSL方法与自生成标签进行分类和统一,作为预测学习方法,并通过不同的标签获取方式来阐明它们之间的联系和区别。

  • 我们总结了常用的SSL任务设置以及不同设置下常用的各类数据集,为未来方法的发展奠定了基础。

  • 我们开发了一个用于在GNN上应用SSL的标准化测试平台,包括通用基准方法和基准的实现,为未来的方法提供了方便和灵活的定制。

成为VIP会员查看完整内容
0
26

机器学习在许多部署的决策系统中发挥着作用,其方式通常是人类利益相关者难以理解或不可能理解的。以一种人类可以理解的方式解释机器学习模型的输入和输出之间的关系,对于开发可信的基于机器学习的系统是至关重要的。一个新兴的研究机构试图定义机器学习的目标和解释方法。在本文中,我们试图对反事实解释的研究进行回顾和分类,这是一种特殊类型的解释,它提供了在模型输入以特定方式改变时可能发生的事情之间的联系。机器学习中反事实可解释性的现代方法与许多国家的既定法律原则相联系,这使它们吸引了金融和医疗等高影响力领域的实地系统。因此,我们设计了一个具有反事实解释算法理想性质的准则,并对目前提出的所有反事实解释算法进行了综合评价。我们的标题便于比较和理解不同方法的优缺点,并介绍了该领域的主要研究主题。我们也指出了在反事实解释空间的差距和讨论了有前途的研究方向。

机器学习作为一种在许多领域实现大规模自动化的有效工具,正日益被人们所接受。算法能够从数据中学习,以发现模式并支持决策,而不是手工设计的规则。这些决定可以并确实直接或间接地影响人类;备受关注的案例包括信贷贷款[99]、人才资源[97]、假释[102]和医疗[46]的申请。在机器学习社区中,新生的公平、责任、透明度和伦理(命运)已经成为一个多学科的研究人员和行业从业人员的团体,他们感兴趣的是开发技术来检测机器学习模型中的偏见,开发算法来抵消这种偏见,为机器决策生成人类可理解的解释,让组织为不公平的决策负责,等等。

对于机器决策,人类可以理解的解释在几个方面都有优势。例如,关注一个申请贷款的申请人的用例,好处包括:

  • 对于生活受到该决定影响的申请人来说,解释是有益的。例如,它帮助申请人理解他们的哪些因素是做出决定的关键因素。

  • 此外,如果申请人觉得受到了不公平待遇,例如,如果一个人的种族在决定结果时至关重要,它还可以帮助申请人对决定提出质疑。这对于组织检查其算法中的偏见也很有用。

  • 在某些情况下,解释为申请人提供了反馈,他们可以根据这些反馈采取行动,在未来的时间内获得预期的结果。

  • 解释可以帮助机器学习模型开发人员识别、检测和修复错误和其他性能问题。

  • 解释有助于遵守与机器生产决策相关的法律,如GDPR[10]。

机器学习中的可解释性大体上是指使用固有的可解释的透明模型或为不透明模型生成事后解释。前者的例子包括线性/逻辑回归、决策树、规则集等。后者的例子包括随机森林、支持向量机(SVMs)和神经网络。

事后解释方法既可以是模型特定的,也可以是模型不可知的。特征重要性解释和模型简化是两种广泛的特定于模型的方法。与模型无关的方法可以分为视觉解释、局部解释、特性重要性和模型简化。

特征重要性(Feature importance)是指对模型的整体精度或某个特定决策最有影响的特征,例如SHAP[80]、QII[27]。模型简化找到了一个可解释的模型,该模型紧致地模仿了不透明模型。依存图是一种常用的直观解释,如部分依存图[51]、累积局部效应图[14]、个体条件期望图[53]。他们将模型预测的变化绘制成一个特征,或者多个特征被改变。局部解释不同于其他解释方法,因为它们只解释一个预测。局部解释可以进一步分为近似解释和基于实例的解释。近似方法在模型预测需要解释的数据点附近抽取新的数据点(以下称为explainee数据点),然后拟合线性模型(如LIME[92])或从中提取规则集(如锚[93])。基于实例的方法寻求在被解释数据点附近找到数据点。它们要么以与被解释数据点具有相同预测的数据点的形式提供解释,要么以预测与被解释数据点不同的数据点的形式提供解释。请注意,后一种数据点仍然接近于被解释的数据点,被称为“反事实解释”。

回想一下申请贷款的申请人的用例。对于贷款请求被拒绝的个人,反事实的解释为他们提供反馈,帮助他们改变自己的特征,以过渡到决策边界的理想一面,即获得贷款。这样的反馈被称为可执行的。与其他几种解释技术不同,反事实解释不能明确回答决策中的“为什么”部分;相反,他们提供建议以达到预期的结果。反事实解释也适用于黑箱模型(只有模型的预测功能是可访问的),因此不限制模型的复杂性,也不要求模型披露。它们也不一定能近似底层模型,从而产生准确的反馈。由于反事实解释具有直觉性,因此也符合法律框架的规定(见附录C)。

在这项工作中,我们收集、审查和分类了最近的39篇论文,提出了算法,以产生机器学习模型的反事实解释。这些方法大多集中在表格或基于图像的数据集上。我们在附录b中描述了我们为这项调查收集论文的方法。我们描述了这个领域最近的研究主题,并将收集的论文按照有效的反事实解释的固定需求进行分类(见表1)。

成为VIP会员查看完整内容
0
38

通过人工神经网络等获得的预测具有很高的准确性,但人类经常将这些模型视为黑盒子。对于人类来说,关于决策制定的洞察大多是不透明的。在医疗保健或金融等高度敏感领域,对决策的理解至关重要。黑盒子背后的决策要求它对人类来说更加透明、可问责和可理解。这篇综述论文提供了基本的定义,概述了可解释监督机器学习(SML)的不同原理和方法。我们进行了最先进的综述,回顾过去和最近可解释的SML方法,并根据介绍的定义对它们进行分类。最后,我们通过一个解释性的案例研究来说明原则,并讨论未来的重要方向。

https://www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c

目前人工智能(AI)模型的准确性是显著的,但准确性并不是最重要的唯一方面。对于高风险的领域,对模型和输出的详细理解也很重要。底层的机器学习和深度学习算法构建的复杂模型对人类来说是不透明的。Holzinger等人(2019b)指出,医学领域是人工智能面临的最大挑战之一。对于像医疗这样的领域,深刻理解人工智能的应用是至关重要的,对可解释人工智能(XAI)的需求是显而易见的。

可解释性在许多领域很重要,但不是在所有领域。我们已经提到了可解释性很重要的领域,例如卫生保健。在其他领域,比如飞机碰撞避免,算法多年来一直在没有人工交互的情况下运行,也没有给出解释。当存在某种程度的不完整时,需要可解释性。可以肯定的是,不完整性不能与不确定性混淆。不确定性指的是可以通过数学模型形式化和处理的东西。另一方面,不完全性意味着关于问题的某些东西不能充分编码到模型中(Doshi-Velez和Kim(2017))。例如,刑事风险评估工具应该是公正的,它也应该符合人类的公平和道德观念。但伦理学是一个很宽泛的领域,它是主观的,很难正式化。相比之下,飞机避免碰撞是一个很容易理解的问题,也可以被精确地描述。如果一个系统能够很好地避免碰撞,就不用再担心它了。不需要解释。

本文详细介绍了可解释SML的定义,并为该领域中各种方法的分类奠定了基础。我们区分了各种问题定义,将可解释监督学习领域分为可解释模型、代理模型拟合和解释生成。可解释模型的定义关注于自然实现的或通过使用设计原则强制实现的整个模型理解。代理模型拟合方法近似基于黑盒的局部或全局可解释模型。解释生成过程直接产生一种解释,区分局部解释和全局解释。

综上所述,本文的贡献如下:

  • 对五种不同的解释方法进行形式化,并对整个解释链的相应文献(分类和回归)进行回顾。
  • 可解释性的原因,审查重要领域和可解释性的评估
  • 这一章仅仅强调了围绕数据和可解释性主题的各个方面,比如数据质量和本体
  • 支持理解不同解释方法的连续用例
  • 回顾重要的未来方向和讨论

成为VIP会员查看完整内容
0
47

自监督学习由于能够避免标注大规模数据集的成本而受到欢迎。它能够采用自定义的伪标签作为监督,并将学习到的表示用于几个下游任务。具体来说,对比学习最近已成为计算机视觉、自然语言处理(NLP)等领域的自主监督学习方法的主要组成部分。它的目的是将同一个样本的增广版本嵌入到一起,同时试图将不同样本中的嵌入推开。这篇论文提供了一个广泛的自我监督的方法综述,遵循对比的方法。本研究解释了在对比学习设置中常用的借口任务,以及到目前为止提出的不同架构。接下来,我们将对图像分类、目标检测和动作识别等多个下游任务的不同方法进行性能比较。最后,我们总结了目前方法的局限性和需要进一步的技术和未来方向取得实质性进展。

https://arxiv.org/abs/2011.00362

概述:

随着深度学习技术的发展,它已成为目前大多数智能系统的核心组件之一。深度神经网络(DNNs)能够从现有的大量数据中学习丰富的模式,这使得它在大多数计算机视觉(CV)任务(如图像分类、目标检测、图像分割、动作识别)以及自然语言处理(NLP)任务(如句子分类、语言模型、机器翻译等)中成为一种引人注目的方法。然而,由于手工标注数百万个数据样本的工作量很大,从标记数据中学习特征的监督方法已经几乎达到了饱和。这是因为大多数现代计算机视觉系统(受监督的)都试图通过查找大型数据集中数据点及其各自注释之间的模式来学习某种形式的图像表示。像GRAD-CAM[1]这样的工作提出了一种技术,可以为模型所做的决策提供可视化的解释,从而使决策更加透明和可解释。

传统的监督学习方法很大程度上依赖于可用的带注释的训练数据的数量。尽管有大量的可用数据,但缺乏注解促使研究人员寻找替代方法来利用它们。这就是自监督方法在推动深度学习的进程中发挥重要作用的地方,它不需要昂贵的标注,也不需要学习数据本身提供监督的特征表示。

监督学习不仅依赖昂贵的注释,而且还会遇到泛化错误、虚假的相关性和对抗攻击[2]等问题。最近,自监督学习方法集成了生成和对比方法,这些方法能够利用未标记的数据来学习潜在的表示。一种流行的方法是提出各种各样的代理任务,利用伪标签来帮助学习特征。诸如图像inpainting、灰度图像着色、拼图游戏、超分辨率、视频帧预测、视听对应等任务已被证明是学习良好表示的有效方法。

生成式模型在2014年引入生成对抗网络(GANs)[3]后得到普及。这项工作后来成为许多成功架构的基础,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。这些方法激发了更多的研究人员转向使用无标签数据在自监督的设置下训练深度学习模型。尽管取得了成功,研究人员开始意识到基于GAN的方法的一些并发症。它们很难训练,主要有两个原因: (a)不收敛——模型参数发散很多,很少收敛; (b)鉴别器太过成功,导致生成网络无法产生类似真实的假信号,导致学习无法继续。此外,生成器和判别器之间需要适当的同步,以防止判别器收敛和生成器发散。

成为VIP会员查看完整内容
0
32

作为传统DNNs对图的推广,GNN继承了传统DNNs的优点和缺点。与传统的DNNs一样,GNN在许多图形相关的任务中被证明是有效的,比如节点聚类和图聚焦任务。传统的DNNs已被证明易受专门设计的对抗性攻击(Goodfellow et al., 2014b;徐等,2019b)。在对抗性的攻击下,受害样本会受到干扰,不容易被发现,但会导致错误的结果。越来越明显的是,GNNs也继承了这个缺点。对手可以通过操纵图的结构或节点特征来欺骗GNN模型,从而产生图的对抗性扰动。GNN的这种局限性引起了人们对在诸如金融系统和风险管理等安全关键应用程序中采用它们的极大关注。例如,在一个信用评分系统中,欺诈者可以伪造与几个高信用客户的关系,以逃避欺诈者检测模型;垃圾邮件发送者可以很容易地创建虚假关注者,以增加虚假新闻被推荐和传播的机会。因此,图形对抗性攻击及其对策的研究越来越受到人们的关注。在这一章中,我们首先介绍了图对抗攻击的概念和定义,并详细介绍了一些具有代表性的图对抗攻击方法。然后,我们讨论了针对这些对抗性攻击的典型防御技术。

http://cse.msu.edu/~mayao4/dlg_book/

成为VIP会员查看完整内容
1
53

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在持续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。

https://www.zhuanzhi.ai/paper/e5bee7a1e93a93ef9139966643317e1c

概述:

随着实用机器学习系统的不断成熟,社区发现了对持续学习[1]、[2]的兴趣。与广泛练习的孤立学习不同,在孤立学习中,系统的算法训练阶段被限制在一个基于先前收集的i.i.d数据集的单一阶段,持续学习需要利用随着时间的推移而到来的数据的学习过程。尽管这种范式已经在许多机器学习系统中找到了各种应用,回顾一下最近关于终身机器学习[3]的书,深度学习的出现似乎已经将当前研究的焦点转向了一种称为“灾难性推理”或“灾难性遗忘”的现象[4],[5],正如最近的评论[6],[7],[8],[9]和对深度持续学习[8],[10],[11]的实证调查所表明的那样。后者是机器学习模型的一个特殊效应,机器学习模型贪婪地根据给定的数据群更新参数,比如神经网络迭代地更新其权值,使用随机梯度估计。当包括导致数据分布发生任何变化的不断到达的数据时,学习到的表示集被单向引导,以接近系统当前公开的数据实例上的任何任务的解决方案。自然的结果是取代以前学到的表征,导致突然忘记以前获得的信息。

尽管目前的研究主要集中在通过专门机制的设计来缓解持续深度学习中的这种遗忘,但我们认为,一种非常不同形式的灾难性遗忘的风险正在增长,即忘记从过去的文献中吸取教训的危险。尽管在连续的训练中保留神经网络表示的努力值得称赞,但除了只捕获灾难性遗忘[12]的度量之外,我们还高度关注了实际的需求和权衡,例如包括内存占用、计算成本、数据存储成本、任务序列长度和训练迭代次数等。如果在部署[14]、[15]、[16]期间遇到看不见的未知数据或小故障,那么大多数当前系统会立即崩溃,这几乎可以被视为误导。封闭世界的假设似乎无所不在,即认为模型始终只会遇到与训练过程中遇到的数据分布相同的数据,这在真实的开放世界中是非常不现实的,因为在开放世界中,数据可以根据不同的程度变化,而这些变化是不现实的,无法捕获到训练集中,或者用户能够几乎任意地向系统输入预测信息。尽管当神经网络遇到不可见的、未知的数据实例时,不可避免地会产生完全没有意义的预测,这是众所周知的事实,已经被暴露了几十年了,但是当前的努力是为了通过不断学习来规避这一挑战。选择例外尝试解决识别不可见的和未知的示例、拒绝荒谬的预测或将它们放在一边供以后使用的任务,通常总结在开放集识别的伞下。然而,大多数现有的深度连续学习系统仍然是黑盒,不幸的是,对于未知数据的错误预测、数据集的异常值或常见的图像损坏[16],这些系统并没有表现出理想的鲁棒性。

除了目前的基准测试实践仍然局限于封闭的世界之外,另一个不幸的趋势是对创建的持续学习数据集的本质缺乏理解。持续生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及类增量持续学习的大部分工作(如[12]中给出的工作,[23],[24],[25],[26],[27],[28])一般调查sequentialized版本的经过时间考验的视觉分类基准如MNIST [29], CIFAR[30]或ImageNet[31],单独的类只是分成分离集和序列所示。为了在基准中保持可比性,关于任务排序的影响或任务之间重叠的影响的问题通常会被忽略。值得注意的是,从邻近领域的主动机器学习(半监督学习的一种特殊形式)中吸取的经验教训,似乎并没有整合到现代的连续学习实践中。在主动学习中,目标是学会在让系统自己查询接下来要包含哪些数据的挑战下,逐步地找到与任务解决方案最接近的方法。因此,它可以被视为缓解灾难性遗忘的对抗剂。当前的持续学习忙于维护在每个步骤中获得的信息,而不是无休止地积累所有的数据,而主动学习则关注于识别合适的数据以纳入增量训练系统的补充问题。尽管在主动学习方面的早期开创性工作已经迅速识别出了通过使用启发式[32]、[33]、[34]所面临的强大应用的挑战和陷阱,但后者在深度学习[35]、[36]、[37]、[38]的时代再次占据主导地位,这些挑战将再次面临。

在这项工作中,我们第一次努力建立一个原则性和巩固的深度持续学习、主动学习和在开放的世界中学习的观点。我们首先单独回顾每一个主题,然后继续找出在现代深度学习中似乎较少受到关注的以前学到的教训。我们将继续争论,这些看似独立的主题不仅从另一个角度受益,而且应该结合起来看待。在这个意义上,我们建议将当前的持续学习实践扩展到一个更广泛的视角,将持续学习作为一个总括性术语,自然地包含并建立在先前的主动学习和开放集识别工作之上。本文的主要目的并不是引入新的技术或提倡一种特定的方法作为通用的解决方案,而是对最近提出的神经网络[39]和[40]中基于变分贝叶斯推理的方法进行了改进和扩展,以说明一种走向全面框架的可能选择。重要的是,它作为论证的基础,努力阐明生成建模作为深度学习系统关键组成部分的必要性。我们强调了在这篇论文中发展的观点的重要性,通过实证证明,概述了未来研究的含义和有前景的方向。

成为VIP会员查看完整内容
0
80

有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。

统计与因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。

识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计和机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。

介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。

假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。

https://www.bradyneal.com/causal-inference-course

成为VIP会员查看完整内容
0
113

对因果推理的简明和自成体系的介绍,在数据科学和机器学习中越来越重要。

因果关系的数学化是一个相对较新的发展,在数据科学和机器学习中变得越来越重要。这本书提供了一个独立的和简明的介绍因果模型和如何学习他们的数据。在解释因果模型的必要性,讨论潜在的因果推论的一些原则,这本书教读者如何使用因果模型:如何计算干预分布,如何从观测推断因果模型和介入的数据,和如何利用因果思想经典的机器学习问题。所有这些主题都将首先以两个变量的形式进行讨论,然后在更一般的多元情况下进行讨论。对于因果学习来说,二元情况是一个特别困难的问题,因为经典方法中用于解决多元情况的条件独立不存在。作者认为分析因果之间的统计不对称是非常有意义的,他们报告了他们对这个问题十年来的深入研究。

本书对具有机器学习或统计学背景的读者开放,可用于研究生课程或作为研究人员的参考。文本包括可以复制和粘贴的代码片段、练习和附录,其中包括最重要的技术概念摘要。

首先,本书主要研究因果关系推理子问题,这可能被认为是最基本和最不现实的。这是一个因果问题,需要分析的系统只包含两个可观测值。在过去十年中,作者对这个问题进行了较为详细的研究。本书整理这方面的大部分工作,并试图将其嵌入到作者认为对研究因果关系推理问题的选择性至关重要的更大背景中。尽管先研究二元(bivariate)案例可能有指导意义,但按照章节顺序,也可以直接开始阅读多元(multivariate)章节;见图一。

第二,本书提出的解决方法来源于机器学习和计算统计领域的技术。作者对其中的方法如何有助于因果结构的推断更感兴趣,以及因果推理是否能告诉我们应该如何进行机器学习。事实上,如果我们不把概率分布描述的随机实验作为出发点,而是考虑分布背后的因果结构,机器学习的一些最深刻的开放性问题就能得到最好的理解。
成为VIP会员查看完整内容
0
256
小贴士
相关VIP内容
专知会员服务
28+阅读 · 2月7日
专知会员服务
47+阅读 · 2020年11月19日
专知会员服务
32+阅读 · 2020年11月5日
专知会员服务
57+阅读 · 2020年10月10日
专知会员服务
53+阅读 · 2020年9月20日
专知会员服务
80+阅读 · 2020年9月7日
专知会员服务
113+阅读 · 2020年8月25日
相关资讯
【机器学习】无处不在的机器学习
产业智能官
3+阅读 · 2019年8月18日
干货 | 可解释的机器学习
AI科技评论
8+阅读 · 2019年7月3日
用深度学习揭示数据的因果关系
专知
16+阅读 · 2019年5月18日
“搞机器学习没前途”
CSDN
236+阅读 · 2018年9月12日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
相关论文
Qiang Wang,Yun Zheng,Pan Pan,Yinghui Xu
0+阅读 · 4月8日
Derek Hoiem,Tanmay Gupta,Zhizhong Li,Michal M. Shlapentokh-Rothman
0+阅读 · 4月5日
Qinbin Li,Bingsheng He,Dawn Song
3+阅读 · 3月30日
Xia Hu,Lingyang Chu,Jian Pei,Weiqing Liu,Jiang Bian
13+阅读 · 3月8日
Lingjuan Lyu,Han Yu,Xingjun Ma,Lichao Sun,Jun Zhao,Qiang Yang,Philip S. Yu
13+阅读 · 2020年12月7日
Attentive Graph Neural Networks for Few-Shot Learning
Hao Cheng,Joey Tianyi Zhou,Wee Peng Tay,Bihan Wen
25+阅读 · 2020年7月14日
One-Shot Federated Learning
Neel Guha,Ameet Talwalkar,Virginia Smith
6+阅读 · 2019年3月5日
Compositional GAN: Learning Conditional Image Composition
Samaneh Azadi,Deepak Pathak,Sayna Ebrahimi,Trevor Darrell
30+阅读 · 2018年7月19日
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
4+阅读 · 2018年6月5日
Wenhan Xiong,Thien Hoang,William Yang Wang
18+阅读 · 2018年1月8日
Top