教育评估、信贷、就业、医疗保健和刑事司法等高风险应用的决策越来越受到数据驱动,并由机器学习模型支持。机器学习模型也使关键的信息物理系统,如自动驾驶汽车和机器人手术成为可能。在过去的几年里,机器学习领域取得了惊人的进展。然而,即使这些技术越来越多地融入我们的生活,记者、活动家和学者仍发现了一些侵蚀这些系统可信度的特征。例如,据报道,一个支持法官审前拘留决定的机器学习模型对黑人被告存在偏见。同样,据报道,一个支持在一家大型科技公司进行简历筛选的模型也对女性有偏见。研究表明,用于胸部x光片疾病计算机辅助诊断的机器学习模型更重视图像中的标记,而不是患者的解剖细节。自动驾驶汽车的死亡事故发生在不同寻常的条件下,根本的机器学习算法没有经过训练。简而言之,虽然每天都有机器学习算法在某些任务上取得超人成绩的新故事,但这些惊人的结果只是在一般情况下。我们在所有情况下信任这些算法所需要的可靠性、安全性和透明度仍然是难以捉摸的。因此,越来越多的人希望在这些系统中拥有更多的公平性、健壮性、可解释性和透明度。

http://www.trustworthymachinelearning.com/

机器学习的当前状态是什么,我们如何让它更值得信任? 天然成分、卫生制剂和防篡改包装的类似物是什么?机器学习的透明容器、工厂参观和食品标签是什么?机器学习在造福社会方面的作用是什么?

这本书的目的是回答这些问题,并提出一个可靠的机器学习的统一观点。有几本从不同角度介绍机器学习的优秀书籍。也开始出现一些关于值得信赖的机器学习的个别主题的优秀文本,如公平性和可解释性然而,据我所知,没有一个独立的资源可以定义值得信赖的机器学习,并带领读者了解它所涉及的所有不同方面。如果我是一个在高风险领域工作的高级技术专家,不回避一些应用数学,我就会写一本我想读的书。其目标是传授一种将安全性、开放性和包容性视为头等大事的机器学习系统整合起来的思维方式。我们将开发一个概念性的基础,会给你信心和起点,深入研究的话题。

第1部分的剩余部分讨论了本书的局限性,并讨论了几个对理解可靠机器学习概念很重要的初步主题: 在实践中开发机器学习系统的角色和生命周期,以及在不确定性方面量化安全概念。

第2部分是关于数据的讨论,数据是进行机器学习的前提。除了提供不同数据模式和来源的简短概述外,该部分还涉及与可信机器学习相关的三个主题: 偏见、同意和隐私。第3部分涉及到值得信赖的机器学习的第一个属性: 基本性能。它描述了最优检测理论和不同的有监督机器学习公式。它教授几种不同的学习算法,如判别分析、naïve贝叶斯、k-最近邻、决策树和森林、逻辑回归、支持向量机和神经网络。最后总结了因果发现和因果推理的方法。第四部分是值得信赖的机器学习的第二个属性:可靠性。这个属性通过三个特定的主题来讨论: 分布偏移、公平性和对抗鲁棒性。这些主题的描述不仅定义了问题,而且还提供了检测和缓解问题的解决方案。

第5部分是关于第三个属性:人类与机器学习系统在两个方向上的交互——理解系统并给它指令。第一部分从模型的可解释性和可解释性开始。它转向了测试和记录机器学习算法各个方面的方法,然后可以通过公平性、问责制和透明度表(FAccTsheets)进行透明报告。本部分的最后一个主题是机器引出人们和社会的政策和价值观来管理它的行为。第六部分讨论了第四个属性: 人们和社会的价值可能是什么。它首先讨论了机器学习在虚假信息中的恶意使用,以及机器学习在创建过滤气泡时不必要的含义。接下来,它描述了在机器学习和人工智能中编码期望值和应用的不同专业指南。最后,本文讨论了如何将具有不同生活经验的机器学习系统创造者纳入其中,从而扩大机器学习的价值、目标和应用,在某些情况下,通过技术追求社会公益。

成为VIP会员查看完整内容
0
27

相关内容

将机器学习(ML)和深度学习(DL)结合在金融交易中,重点放在投资管理上。这本书解释了投资组合管理、风险分析和绩效分析的系统方法,包括使用数据科学程序的预测分析。

本书介绍了模式识别和未来价格预测对时间序列分析模型的影响,如自回归综合移动平均模型(ARIMA),季节ARIMA (SARIMA)模型和加性模型,包括最小二乘模型和长期短期记忆(LSTM)模型。运用高斯隐马尔可夫模型提出了隐模式识别和市场状态预测。这本书涵盖了K-Means模型在股票聚类中的实际应用。建立了方差协方差法和模拟法(蒙特卡罗模拟法)在风险值估算中的实际应用。它还包括使用逻辑斯蒂分类器和多层感知器分类器的市场方向分类。最后,本书介绍了投资组合的绩效和风险分析。

到本书结束时,您应该能够解释算法交易如何工作及其在现实世界中的实际应用,并知道如何应用监督和无监督的ML和DL模型来支持投资决策,并实施和优化投资策略和系统。

你将学习:

了解金融市场和算法交易的基本原理,以及适用于系统性投资组合管理的监督和无监督学习模型

了解特征工程、数据可视化、超参数优化等概念

设计、构建和测试有监督和无监督的ML和DL模型

发现季节性、趋势和市场机制,模拟市场变化和投资策略问题,预测市场方向和价格

以卓越的资产类别构建和优化投资组合,并衡量潜在风险

成为VIP会员查看完整内容
0
80

机器学习已经成为近年来最流行的话题之一。我们今天看到的机器学习的应用只是冰山一角。机器学习革命才刚刚开始。它正在成为所有现代电子设备不可分割的一部分。在自动化领域的应用,如汽车、安全和监视、增强现实、智能家居、零售自动化和医疗保健,还不多。机器人技术也正在崛起,主宰自动化世界。机器学习在机器人领域的未来应用仍未被普通读者发现。因此,我们正在努力编写这本关于机器学习在机器人技术上的未来应用的编辑书籍,其中几个应用已经包含在单独的章节中。这本书的内容是技术性的。它试图覆盖机器学习的所有可能的应用领域。这本书将提供未来的愿景在未探索的领域的应用机器人使用机器学习。本书中提出的观点得到了原始研究结果的支持。本章在这里提供了所有必要的理论和数学计算的深入研究。对于外行人和开发人员来说,它将是完美的,因为它将结合高级材料和介绍性材料,形成一个论点,说明机器学习在未来可以实现什么。它将详细介绍未来的应用领域及其方法。因此,本书将极大地有利于学术界、研究人员和行业项目管理者开发他们的新项目,从而造福人类。

https://link.springer.com/book/10.1007/978-981-16-0598-7#about

成为VIP会员查看完整内容
0
34

近年来,机器学习取得了显著进展,提供了一些新功能,比如创建复杂的、可计算的文本和图像表示。这些功能催生了新产品,如基于图像内容的图像搜索、多种语言之间的自动翻译,甚至是真实图像和声音的合成。同时,机器学习已经在企业中被广泛采用,用于经典的用例(例如,预测客户流失、贷款违约和制造设备故障)。

在机器学习取得成功的地方,它是非常成功的。

在许多情况下,这种成功可以归因于对大量训练数据的监督学习(结合大量计算)。总的来说,有监督的学习系统擅长于一项任务:预测。当目标是预测一个结果,并且我们有很多这个结果的例子,以及与它相关的特征时,我们可能会转向监督学习。

随着机器学习的普及,它在业务流程中的影响范围已经从狭窄的预测扩展到决策制定。机器学习系统的结果经常被用来设定信用限额,预测制造设备故障,以及管理我们的各种新闻推送。当个人和企业试图从这些复杂和非线性系统提供的信息中学习时,更多(和更好)的可解释性方法已经被开发出来,这是非常重要的。

然而,仅仅基于预测的推理有一些基本的限制。例如,如果银行提高客户的信用额度会发生什么?这些问题不能用建立在先前观察到的数据上的相关模型来回答,因为它们涉及到客户选择的可能变化,作为对信用限额变化的反应。在很多情况下,我们的决策过程的结果是一种干预——一种改变世界的行动。正如我们将在本报告中展示的,纯粹相关的预测系统不具备在这种干预下进行推理的能力,因此容易产生偏差。对于干预下的数据决策,我们需要因果关系。

即使对于纯粹的预测系统(这是监督学习的强项),应用一些因果思维也会带来好处。根据因果关系的定义,它们是不变的,这意味着它们在不同的情况和环境中都是正确的。对于机器学习系统来说,这是一个非常理想的特性,在机器学习系统中,我们经常根据我们在训练中没有看到的数据进行预测;我们需要这些系统具有适应性和健壮性。

因果推理和机器学习的交集是一个迅速扩展的研究领域。它已经产生了可供主流采用的功能——这些功能可以帮助我们构建更健壮、可靠和公平的机器学习系统。

本书介绍了因果推理,因为它涉及很多数据科学和机器学习工作。我们引入因果图,着重于消除理解的概念障碍。然后我们利用这个理解来探索关于不变预测的最新想法,它给高维问题带来了因果图的一些好处。通过附带的原型,我们展示了即使是经典的机器学习问题,如图像分类,也可以从因果推理工具中受益。

成为VIP会员查看完整内容
0
150

机器学习在许多部署的决策系统中发挥着作用,其方式通常是人类利益相关者难以理解或不可能理解的。以一种人类可以理解的方式解释机器学习模型的输入和输出之间的关系,对于开发可信的基于机器学习的系统是至关重要的。一个新兴的研究机构试图定义机器学习的目标和解释方法。在本文中,我们试图对反事实解释的研究进行回顾和分类,这是一种特殊类型的解释,它提供了在模型输入以特定方式改变时可能发生的事情之间的联系。机器学习中反事实可解释性的现代方法与许多国家的既定法律原则相联系,这使它们吸引了金融和医疗等高影响力领域的实地系统。因此,我们设计了一个具有反事实解释算法理想性质的准则,并对目前提出的所有反事实解释算法进行了综合评价。我们的标题便于比较和理解不同方法的优缺点,并介绍了该领域的主要研究主题。我们也指出了在反事实解释空间的差距和讨论了有前途的研究方向。

机器学习作为一种在许多领域实现大规模自动化的有效工具,正日益被人们所接受。算法能够从数据中学习,以发现模式并支持决策,而不是手工设计的规则。这些决定可以并确实直接或间接地影响人类;备受关注的案例包括信贷贷款[99]、人才资源[97]、假释[102]和医疗[46]的申请。在机器学习社区中,新生的公平、责任、透明度和伦理(命运)已经成为一个多学科的研究人员和行业从业人员的团体,他们感兴趣的是开发技术来检测机器学习模型中的偏见,开发算法来抵消这种偏见,为机器决策生成人类可理解的解释,让组织为不公平的决策负责,等等。

对于机器决策,人类可以理解的解释在几个方面都有优势。例如,关注一个申请贷款的申请人的用例,好处包括:

  • 对于生活受到该决定影响的申请人来说,解释是有益的。例如,它帮助申请人理解他们的哪些因素是做出决定的关键因素。

  • 此外,如果申请人觉得受到了不公平待遇,例如,如果一个人的种族在决定结果时至关重要,它还可以帮助申请人对决定提出质疑。这对于组织检查其算法中的偏见也很有用。

  • 在某些情况下,解释为申请人提供了反馈,他们可以根据这些反馈采取行动,在未来的时间内获得预期的结果。

  • 解释可以帮助机器学习模型开发人员识别、检测和修复错误和其他性能问题。

  • 解释有助于遵守与机器生产决策相关的法律,如GDPR[10]。

机器学习中的可解释性大体上是指使用固有的可解释的透明模型或为不透明模型生成事后解释。前者的例子包括线性/逻辑回归、决策树、规则集等。后者的例子包括随机森林、支持向量机(SVMs)和神经网络。

事后解释方法既可以是模型特定的,也可以是模型不可知的。特征重要性解释和模型简化是两种广泛的特定于模型的方法。与模型无关的方法可以分为视觉解释、局部解释、特性重要性和模型简化。

特征重要性(Feature importance)是指对模型的整体精度或某个特定决策最有影响的特征,例如SHAP[80]、QII[27]。模型简化找到了一个可解释的模型,该模型紧致地模仿了不透明模型。依存图是一种常用的直观解释,如部分依存图[51]、累积局部效应图[14]、个体条件期望图[53]。他们将模型预测的变化绘制成一个特征,或者多个特征被改变。局部解释不同于其他解释方法,因为它们只解释一个预测。局部解释可以进一步分为近似解释和基于实例的解释。近似方法在模型预测需要解释的数据点附近抽取新的数据点(以下称为explainee数据点),然后拟合线性模型(如LIME[92])或从中提取规则集(如锚[93])。基于实例的方法寻求在被解释数据点附近找到数据点。它们要么以与被解释数据点具有相同预测的数据点的形式提供解释,要么以预测与被解释数据点不同的数据点的形式提供解释。请注意,后一种数据点仍然接近于被解释的数据点,被称为“反事实解释”。

回想一下申请贷款的申请人的用例。对于贷款请求被拒绝的个人,反事实的解释为他们提供反馈,帮助他们改变自己的特征,以过渡到决策边界的理想一面,即获得贷款。这样的反馈被称为可执行的。与其他几种解释技术不同,反事实解释不能明确回答决策中的“为什么”部分;相反,他们提供建议以达到预期的结果。反事实解释也适用于黑箱模型(只有模型的预测功能是可访问的),因此不限制模型的复杂性,也不要求模型披露。它们也不一定能近似底层模型,从而产生准确的反馈。由于反事实解释具有直觉性,因此也符合法律框架的规定(见附录C)。

在这项工作中,我们收集、审查和分类了最近的39篇论文,提出了算法,以产生机器学习模型的反事实解释。这些方法大多集中在表格或基于图像的数据集上。我们在附录b中描述了我们为这项调查收集论文的方法。我们描述了这个领域最近的研究主题,并将收集的论文按照有效的反事实解释的固定需求进行分类(见表1)。

成为VIP会员查看完整内容
0
74

《通向人工智能之路》向读者介绍了机器学习的关键概念,讨论了机器使用数据产生的预测的潜在应用和局限性,并为学者、律师和政策制定者之间关于如何明智地使用和管理它的辩论提供了信息。技术人员还将从过去120年与问责制、可解释性和有偏见的数据的法律斗争中汲取有用的经验教训。

https://link.springer.com/book/10.1007/978-3-030-43582-0#about

成为VIP会员查看完整内容
0
53

通过人工神经网络等获得的预测具有很高的准确性,但人类经常将这些模型视为黑盒子。对于人类来说,关于决策制定的洞察大多是不透明的。在医疗保健或金融等高度敏感领域,对决策的理解至关重要。黑盒子背后的决策要求它对人类来说更加透明、可问责和可理解。这篇综述论文提供了基本的定义,概述了可解释监督机器学习(SML)的不同原理和方法。我们进行了最先进的综述,回顾过去和最近可解释的SML方法,并根据介绍的定义对它们进行分类。最后,我们通过一个解释性的案例研究来说明原则,并讨论未来的重要方向。

https://www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c

目前人工智能(AI)模型的准确性是显著的,但准确性并不是最重要的唯一方面。对于高风险的领域,对模型和输出的详细理解也很重要。底层的机器学习和深度学习算法构建的复杂模型对人类来说是不透明的。Holzinger等人(2019b)指出,医学领域是人工智能面临的最大挑战之一。对于像医疗这样的领域,深刻理解人工智能的应用是至关重要的,对可解释人工智能(XAI)的需求是显而易见的。

可解释性在许多领域很重要,但不是在所有领域。我们已经提到了可解释性很重要的领域,例如卫生保健。在其他领域,比如飞机碰撞避免,算法多年来一直在没有人工交互的情况下运行,也没有给出解释。当存在某种程度的不完整时,需要可解释性。可以肯定的是,不完整性不能与不确定性混淆。不确定性指的是可以通过数学模型形式化和处理的东西。另一方面,不完全性意味着关于问题的某些东西不能充分编码到模型中(Doshi-Velez和Kim(2017))。例如,刑事风险评估工具应该是公正的,它也应该符合人类的公平和道德观念。但伦理学是一个很宽泛的领域,它是主观的,很难正式化。相比之下,飞机避免碰撞是一个很容易理解的问题,也可以被精确地描述。如果一个系统能够很好地避免碰撞,就不用再担心它了。不需要解释。

本文详细介绍了可解释SML的定义,并为该领域中各种方法的分类奠定了基础。我们区分了各种问题定义,将可解释监督学习领域分为可解释模型、代理模型拟合和解释生成。可解释模型的定义关注于自然实现的或通过使用设计原则强制实现的整个模型理解。代理模型拟合方法近似基于黑盒的局部或全局可解释模型。解释生成过程直接产生一种解释,区分局部解释和全局解释。

综上所述,本文的贡献如下:

  • 对五种不同的解释方法进行形式化,并对整个解释链的相应文献(分类和回归)进行回顾。
  • 可解释性的原因,审查重要领域和可解释性的评估
  • 这一章仅仅强调了围绕数据和可解释性主题的各个方面,比如数据质量和本体
  • 支持理解不同解释方法的连续用例
  • 回顾重要的未来方向和讨论

成为VIP会员查看完整内容
0
74

这本书是关于运用机器和深度学习来解决石油和天然气行业的一些挑战。这本书开篇简要讨论石油和天然气勘探和生产生命周期中不同阶段的数据流工业操作。这导致了对一些有趣问题的调查,这些问题很适合应用机器和深度学习方法。最初的章节提供了Python编程语言的基础知识,该语言用于实现算法;接下来是监督和非监督机器学习概念的概述。作者提供了使用开源数据集的行业示例以及对算法的实际解释,但没有深入研究所使用算法的理论方面。石油和天然气行业中的机器学习涵盖了包括地球物理(地震解释)、地质建模、油藏工程和生产工程在内的各种行业主题。

在本书中,重点在于提供一种实用的方法,提供用于实现机器的逐步解释和代码示例,以及用于解决油气行业现实问题的深度学习算法。

你将学到什么

  • 了解石油和天然气行业的端到端的行业生命周期和数据流
  • 了解计算机编程和机器的基本概念,以及实现所使用的算法所需的深度学习
  • 研究一些有趣的行业问题,这些问题很有可能被机器和深度学习解决
  • 发现在石油和天然气行业中执行机器和深度学习项目的实际考虑和挑战

这本书是给谁的

  • 石油和天然气行业的专业人员,他们可以受益于对机器的实际理解和解决现实问题的深度学习方法。
成为VIP会员查看完整内容
0
68

机器学习是计算机科学中增长最快的领域之一,具有深远的应用。本书的目的是介绍机器学习,以及它所提供的算法范例。本书对机器学习的基本原理和将这些原理转化为实际算法的数学推导提供了理论解释。在介绍了基础知识之后,这本书涵盖了以前教科书没有涉及到的一系列广泛的中心主题。这些包括讨论学习的计算复杂性和凸性和稳定性的概念;重要的算法范例包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念,如PAC-Bayes方法和基于压缩的界限。本文面向高级本科生或刚毕业的学生,使统计学、计算机科学、数学和工程学领域的学生和非专业读者都能接触到机器学习的基本原理和算法。

https://www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html

概述

机器学习是指自动检测数据中有意义的模式。在过去的几十年里,它已经成为几乎所有需要从大数据集中提取信息的任务的通用工具。我们被一种基于机器学习的技术包围着:搜索引擎学习如何给我们带来最好的结果(同时投放有利可图的广告),反垃圾邮件软件学习如何过滤我们的电子邮件信息,信用卡交易被一种学习如何侦测欺诈的软件保护着。数码相机学会识别人脸,智能手机上的智能个人辅助应用学会识别语音指令。汽车配备了使用机器学习算法构建的事故预防系统。机器学习还广泛应用于生物信息学、医学和天文学等科学领域。

所有这些应用程序的一个共同特征是,与计算机的更传统使用相比,在这些情况下,由于需要检测的模式的复杂性,人类程序员无法提供关于这些任务应该如何执行的明确、详细的规范。以智慧生物为例,我们的许多技能都是通过学习我们的经验(而不是遵循给我们的明确指示)而获得或改进的。机器学习工具关注的是赋予程序“学习”和适应的能力。

这本书的第一个目标是提供一个严格的,但易于遵循,介绍机器学习的主要概念: 什么是机器学习?

本书的第二个目标是介绍几种关键的机器学习算法。我们选择展示的算法一方面在实践中得到了成功应用,另一方面提供了广泛的不同的学习技术。此外,我们特别关注适合大规模学习的算法(又称“大数据”),因为近年来,我们的世界变得越来越“数字化”,可用于学习的数据量也在急剧增加。因此,在许多应用中数据量大,计算时间是主要瓶颈。因此,我们明确地量化了学习给定概念所需的数据量和计算时间。

目录:

  • Introduction

Part I: Foundations

  • A gentle start
  • A formal learning model
  • Learning via uniform convergence
  • The bias-complexity trade-off
  • The VC-dimension
  • Non-uniform learnability
  • The runtime of learning

Part II: From Theory to Algorithms

  • Linear predictors
  • Boosting
  • Model selection and validation
  • Convex learning problems
  • Regularization and stability
  • Stochastic gradient descent
  • Support vector machines
  • Kernel methods
  • Multiclass, ranking, and complex prediction problems
  • Decision trees
  • Nearest neighbor
  • Neural networks

Part III: Additional Learning Models

  • Online learning
  • Clustering
  • Dimensionality reduction
  • Generative models
  • Feature selection and generation

Part IV: Advanced Theory

  • Rademacher complexities
  • Covering numbers
  • Proof of the fundamental theorem of learning theory
  • Multiclass learnability
  • Compression bounds
  • PAC-Bayes

Appendices

  • Technical lemmas
  • Measure concentration
  • Linear algebra
成为VIP会员查看完整内容
0
163

随着机器学习模型越来越多地用于在医疗保健和刑事司法等高风险环境中帮助决策者,确保决策者(最终用户)正确理解并信任这些模型的功能非常重要。我们将回顾了解模型的可解释性和explainability的概念,详细讨论不同类型的可说明的模型(例如,基于原型方法,稀疏线性模型、基于规则的技术,广义可加模型),事后解释(黑箱解释,包括反事实解释和显著性映射),并探索可解释性与因果性、调试和公平性之间的联系。可解释机器学习这些应用可以极大地受益于模型的可解释性,包括刑事司法和医疗保健。

成为VIP会员查看完整内容
0
100
小贴士
相关VIP内容
专知会员服务
80+阅读 · 6月3日
专知会员服务
34+阅读 · 5月29日
专知会员服务
42+阅读 · 2020年12月1日
专知会员服务
74+阅读 · 2020年11月19日
专知会员服务
68+阅读 · 2020年11月3日
专知会员服务
100+阅读 · 2020年5月27日
相关论文
AIR-Nets: An Attention-Based Framework for Locally Conditioned Implicit Representations
Simon Giebenhain,Bastian Goldlücke
0+阅读 · 10月22日
Ricky Sanjaya,Jun Wang,Yaodong Yang
0+阅读 · 10月22日
Baolin Peng,Chunyuan Li,Zhu Zhang,Jinchao Li,Chenguang Zhu,Jianfeng Gao
0+阅读 · 10月21日
Maurice Margenstern
0+阅读 · 10月16日
Memory-Gated Recurrent Networks
Yaquan Zhang,Qi Wu,Nanbo Peng,Min Dai,Jing Zhang,Hu Wang
9+阅读 · 2020年12月24日
Sahil Verma,John Dickerson,Keegan Hines
15+阅读 · 2020年10月20日
Generating Fact Checking Explanations
Pepa Atanasova,Jakob Grue Simonsen,Christina Lioma,Isabelle Augenstein
8+阅读 · 2020年4月13日
Hui Liu,Qingyu Yin,William Yang Wang
3+阅读 · 2019年6月11日
Bryan Wilder,Eric Ewing,Bistra Dilkina,Milind Tambe
6+阅读 · 2019年5月31日
Taking Human out of Learning Applications: A Survey on Automated Machine Learning
Quanming Yao,Mengshuo Wang,Yuqiang Chen,Wenyuan Dai,Hu Yi-Qi,Li Yu-Feng,Tu Wei-Wei,Yang Qiang,Yu Yang
10+阅读 · 2019年1月17日
Top