发现在多机器人协调技术的最新发展与这个深刻的和原始的资源 多智能体协调:强化学习方法提供了一个全面、深刻和独特的处理多机器人协调算法的开发,与传统算法相比,计算负担最小,存储需求更低。有成就的学者、工程师和作者为读者提供了多机器人协调的高层次介绍和概述,以及基于学习的规划算法的深入分析。 您将了解如何加速对团队目标的探索,以及通过确定团队首选的联合行动来加快TMAQL收敛的替代方法。作者还提出了共识q学习的新方法,解决了均衡选择问题。最后,本书总结了这一快速发展领域的未来研究的可能方向。

读者将发现多智能体协调的前沿技术,包括:

  • 通过强化学习和进化算法介绍多智能体协调,包括纳什均衡和相关均衡等主题
  • 提高多智能体Q-learning在协同任务规划中的收敛速度
  • 基于共识Q学习的多智能体协同规划
  • 基于协同Q学习的多智能体规划相关均衡的高效计算
  • 对于经常使用多智能体学习算法的学者、工程师和专业人士来说,《多智能体协调:强化学习方法》也属于任何对机器学习和人工智能有高级兴趣的人的书架上,因为它适用于合作或竞争机器人领域。

https://www.wiley.com/en-us/Multi+Agent+Coordination:+A+Reinforcement+Learning+Approach-p-9781119699033#:~:text=Multi%2DAgent%20Coordination%3A%20A%20Reinforcement%20Learning%20Approach%20delivers%20a%20comprehensive,when%20compared%20to%20traditional%20algorithms.

成为VIP会员查看完整内容
83

如果你想在任何计算或技术领域工作,你需要理解线性代数。作为对矩阵及其运算的研究,线性代数几乎是所有在计算机中实现的算法和分析的数学基础。但是它在几十年前的教科书中呈现的方式与今天专业人士使用线性代数解决现实世界的现代应用的方式有很大的不同。 Mike X Cohen的这本实用指南教授了用Python实现的线性代数的核心概念,包括如何在数据科学、机器学习、深度学习、计算模拟和生物医学数据处理应用中使用它们。有了这本书的知识,您将能够理解、实现和适应无数的现代分析方法和算法。 适合使用计算机技术和算法的从业者和学生,本书向你介绍:

向量和矩阵的解释和应用 矩阵算术(各种乘法和变换) 独立,等级,和反义词 应用线性代数中的重要分解(包括LU和QR) 特征分解和奇异值分解 应用包括最小二乘模型拟合和主成分分析*

成为VIP会员查看完整内容
72

构建高性能的端到端机器学习系统主要包括开发机器学习模型和为感兴趣的应用程序收集高质量的训练数据(假设一个人可以访问正确的硬件)。尽管在过去几年里,随着开源平台的兴起,机器学习模型变得越来越商品化,但管理高质量的标记训练数据集对许多现实世界的应用来说仍然是昂贵的或不可行的。因此,我们在本文中主要关注数据,特别是如何** (1)通过注入领域特定的先验知识或利用已为不同任务创建的现有软件系统和数据集,使用数据高效的机器学习方法减少对标记数据的依赖,(2)有效管理训练数据并构建相关工具,以最大化数据的效用,(3)通过将数据的结构与嵌入空间的几何形状进行匹配,提高嵌入所实现的数据表示的质量**。

我们首先描述了我们在构建数据高效的机器学习方法方面的工作,通过物理驱动的一致性训练增强、尺度等变展开神经网络和使用未经训练的神经网络弱监督来加速磁共振成像(MRI)重建。然后,我们描述了我们在构建用于自然语言理解的数据高效机器学习方法方面的工作。特别地,我们讨论了一种监督对比学习方法用于预训练的语言模型微调和一种大规模数据增强方法来检索领域数据。与有效管理训练数据相关,我们讨论了我们提出的用于类表单文档gather的信息提取系统,并重点讨论了训练数据管理和相关工具中经常被忽略的方面。我们强调了有效管理训练数据的重要性,表明它至少与机器学习模型在真实数据集的下游提取性能方面的进展一样关键。最后,为了改进各种类型数据的嵌入表示,我们研究了具有异质曲率的空间。我们展示了混合曲率表示为图和词嵌入提供了更高质量的表示。此外,我们还研究了如何将Wikidata知识图谱中的实体嵌入到一个抽象的文本摘要模型中,以增强其真实性。

成为VIP会员查看完整内容
83

来源:CB Insights中国 时间:2022-09-20 13:24:29 作者:

  随着云计算、大数据和人工智能等信息技术的快速发展,各行业数字化水平的逐步提高,企业业务环境和计算场景日益复杂,数间的关联关系也正在变得更加交错。在面对需要深度挖掘数据间复杂关联关系的场景时,传统的关系型数据往往计算效率低下,难以满足应用需求。   在此背景下,图便有了大展身手的空间。这里的“图”(Graph)是针对图论而言,并非常见的图片/图形(Picture/Image),而是指由一系列的点、边构成的图数据,能更自然、直观地表述数据间的关联关系,是一种更符合人类思考方式的抽象表达;图计算技术基于图数据开展分析和计算,从中挖掘出有价值的信息、知识和规律,为实际业务应用提供支持。

  围绕中国图计算技术及应用话题,CB Insights中国正式发布《2022中国图计算技术及应用发展研究报告》,通过科研端文献研究、产业调研与专家访谈等方式,从技术、人才、科研与产业四个维度展开分析,阐明行业发展背景、追溯技术发展历程、拆解技术原理及优势、勾勒行业格局,并研判图计算未来发展趋势。

  图是对世界万物的一种自然表达

  目前,图数据库和图计算系统(也称图计算引擎)是图计算技术领域的核心内容,前者主要负责图数据进行增删查改等操作,后者主要负责执行对图数据的深度分析处理。

图丨图数据库与图计算系统对比(来源:公开信息整理)   图数据库起源最早可追溯至上世纪面向树状结构和属性图的数据库及模型。   进入21世纪,第一款商用图数据库Neo4j公司于2007年成立,开始采用针对图结构进行优化的原生图存储模式,之后出现的其他图数据库如CosmosDB、OrientDB、ArangoDB等,开始朝着多模态、分布式架构等各个方向探索和发展。   而在图计算系统市场,早期业界常用通用型计算框架(如MapReduce)等解决方案处理图问题,但它们在性能等方面尚不尽如人意。   2010年,Google提出了基于BSP模型的Pregel分布式图计算系统,与之前方案相比在编程模型、同步控制等方面提供了更优的解决方案;   之后CMU(卡内基梅隆大学)Select实验室提出了基于GAS模型的GraphLab系统,二者为后续其他图计算系统设计带来了深远的影响。   2015年前,这一阶段的图计算市场依然以海外厂商为主。直至2015-2016年左右,随着应用市场逐步打开,国内图计算领域学术界和产业界开始发力,市场热度逐渐提升。   2016年,清华计算机系师生陈文光、朱晓伟在OSDI(USENIX Symposium on Operating Systems Design and Implementation)学术会议上发表了《Gemini:以计算为中心的分布式图计算系统》论文,提出了国内图计算系统领域重要成果之一的Gemini;同时,一批具有深厚学术研究背景的优秀学者开始进入产业界,尝试将已有学术成果转化为落地应用。   不仅蚂蚁、阿里、腾讯等大厂开始根据自身业务需求切入图计算领域展开研究,市场上也涌现出了一批深耕图计算行业的垂直初创企业,共同展开对图计算领域的商业化探索。   从投融资情况市场来看,根据CB Insights数据,过去三年间国内外共有近15家企业获得了超过20笔融资。其中,海外知名图数据库企业Neo4j在2021年6月的F轮融资中获得3.25亿美元投资,成为数据库历史上最大的一笔投资。   此外,根据知名数据库排名网站DB-Engines的Popularity指数,按数据库类型来看,自2013年以来图数据库一直是受到最多关注的数据库类型,遥遥领先于其他类型的数据库,而且关注热度仍在持续攀升中。

图|各类数据库近十年来热度变化(来源:DB-Engines.com)   近十年学术研究热度迅速攀升

  近年来图计算学术研究领域发展迅速,从2014年到2021年间,图计算领域论文数量呈现翻倍增长趋势,以中美两国学者为首。

图|全球图计算相关主题论文发表数量(单位:篇;数据来源:Web of Science)   目前,清华大学、北京大学、中国科学院以及华中科技大学等是国内图计算领域研究的先驱,贡献了国内大多数高被引用图计算论文。   下表为国内图计算领域的部分研究学者,主要研究领域横跨了图数据、操作系统、人工智能、大数据、分布式系统等,他们不仅在基础理论层面研究深耕,也在产业化实践方面不断更迭创新,助力图计算在大数据的沃土里生根发芽。

图|图计算领域部分代表研究学者(数据来源:CB Insights中国)   产业生态参与者众多,巨头和初创企业各施所长

  现阶段,图数据库的参与者以产业界为主,图计算系统则以学术界和产业界企业的开源方案为主。   图数据库领域不仅有互联网/公有云厂商(如蚂蚁、腾讯、AWS、Microsoft Azure等),还有一众图计算领域垂直企业(如Neo4j、TigerGraph、创邻科技、欧若数网等)、传统数据库厂商(Oracle、IBM等)也已经入局。

图丨图计算行业部分参与者(来源:CB Insights中国)   图计算下游主要面向应用开发商和软件集成商,例如知识图谱开发商等。它们负责在图数据库及图计算系统的查询分析能力基础上,为客户提供完整的解决方案。   目前,图计算的终端客户主要集中在金融、能源、政企、社交网络、搜索引擎、推荐系统等领域。   例如,在金融风控领域,图计算技术可以帮助挖掘个体之间的关联关系,进一步发现潜在风险,在信贷风险评估、反洗钱、反欺诈、资金追踪、潜客发现等场景中,能帮助挖掘出企业间循环担保、薅羊毛灰黑产等重大风险;   在电力领域,图计算技术可以帮助更高效、实时地管理电力设备并监控其运行状态;在社交网络领域,图计算可以通过社区发现等图算法深度挖掘用户之间的联系。

图丨图计算产业链(来源:CB Insights中国)   以蚂蚁集团为例。蚂蚁集团将图技术应用于自身金融风控业务之中,以应对日益复杂的风险形势,提高对于隐形的、有组织的团伙化犯罪风险的识别和挖掘能力。蚂蚁安全团队在图技术基础上建设了全图风控架构,作为应对复杂风险形势的下一代风控基础设施。   全图风控即全域一张图,在整个风控的生命周期,包括风险感知、风险识别、风险管控、风险审理、风险分析等环节中提供保障,提供团伙挖掘、资金链路识别、交易可信识别等核心服务能力。   此外,除了用传统的多度查询来进行风险链路判断外,还引入模式识别的方式(菱形/三角型等)、社区发现的算法等来应对更加复杂的场景。   目前,受制于整体市场对图计算技术的认知仍未成熟,图计算行业仍处于商业化初期阶段。   一方面,客户对图数据库及图计算技术认知不足,在如何理解图能带来的价值、如何进行图数据库选型、如何做好二次开发和持续运维等问题上,依然困难重重。   另一方面,图计算厂商对客户的业务场景不够了解,对于如何帮助客户明确需求,将客户业务场景存在的痛点转化为图的问题,如何在技术角度进一步提升产品力以更好地满足客户需求,如何将图技术应用到更广的领域等问题,未来依然有很大的潜在发展空间。   在商业模式上,企业面临着开源和闭源的选择,开源有助于企业建立开发者生态,快速迭代完善产品,闭源则可帮助企业保持商业现金流。   目前不少项目方选择通过OpenCore的模式开源,即核心模块开源、进阶版功能收费的模式展开商业化;另外也有部分厂商出于现有开源生态不成熟、产品竞争激烈等原因考虑,选择闭源策略。   目前,图计算领域知名的开源产品包括Neo4j(图数据库)、ArangoDB(图数据库)、GraphX(图计算系统)、GraphScope(图计算系统)、Plato(图计算系统)等。此外,蚂蚁集团的大规模图计算系统关键底座TuGraph图数据库单机版,也在2022年9月的世界人工智能大会上宣布正式开源。   以图的角度来思考问题,用图的技术来解决问题

  作为一种理解世界的新方式,图正凭借其对复杂关联关系的强刻画能力,赢得了越来越多的关注。   随着越来越多的行业和领域开始以图的方式存储、分析数据并展开更多应用,大规模图数据的查询和计算对系统的计算性能等各个方面提出了挑战,图计算技术正向着多(大规模)、快(低延时)、好(高可靠)、省(低成本)的方向探索。   对此,学术界和产业界的研究者对图计算部署架构、计算模型等方面的设计优化进行了大量的研究,例如分布式并行架构的优化、与高性能计算的合作等。   另一方面,以图神经网络GNN为代表的图学习,结合了图计算技术与机器学习技术,近年来也在人工智能领域掀起了研究热潮。   图学习通过将已有图结构数据与机器学习模型结合,以满足日益复杂的图计算需求,并试图解决过往复杂模型存在的可解释性低下等问题。从人工智能行业的角度来看,图学习体现了人工智能符号主义与连接主义两大流派的融合应用。   长远来看,对于图计算领域的众多学术机构和厂商来说,未来在图计算产业生态建设上还面临着诸多挑战,有待学术界和产业界长期的共同努力。   企业需要提高客户对图计算技术的认知水平,帮助已经习惯以关系型数据模式理解业务的一线人员顺利理解图数据并开展应用,也让更多的企业意识到可以用图解决业务中现有问题;同时需要校企联动,培养出更多优秀的图计算领域研究学者和开发运维人才;在底层能力基础上建立起完善的工具和应用生态,打开更广阔的应用场景。   此外,图计算领域的标准化体系仍有待完善,目前在查询语言、产品测试基准等方面已经开始逐步建立中。 具体内容如下

成为VIP会员查看完整内容
59

机器学习的对抗性鲁棒性综述了该课题的最新进展,介绍了对抗性攻击、防御和验证的常用算法。章节涵盖了对抗性攻击、验证和防御,主要关注图像分类应用程序,这是对抗性鲁棒性社区考虑的标准基准。其他部分讨论了图像分类以外的对抗例子,测试时间攻击以外的其他威胁模型,以及对抗鲁棒性的应用。对于研究人员,本书提供了一个全面的文献综述,总结了该领域的最新进展,可以作为一个很好的参考,进行未来的研究。此外,本书还可以作为研究生课程的教材,讲授对抗鲁棒性或可信赖机器学习。虽然机器学习(ML)算法在许多应用中取得了显著的性能,但最近的研究表明,它们对对抗性扰动缺乏鲁棒性。鲁棒性的缺乏给实际应用(如自动驾驶汽车、机器人控制和医疗保健系统)的ML模型带来了安全问题。

https://www.elsevier.com/books/adversarial-robustness-for-machine-learning/chen/978-0-12-824020-5

随着机器学习理论和算法的最新进展,高容量和可扩展模型的设计,如神经网络、丰富的数据集和充足的计算资源,机器学习(ML),或更广泛地说,人工智能(AI),已经以前所未有的速度改变了我们的行业和社会。当我们期待着机器学习技术带来的积极影响时,我们往往会忽视潜在的负面影响,这可能会带来相当大的道德担忧,甚至由于法律法规和灾难性的失败而带来挫折,特别是对于关键任务和高风险的决策任务。因此,除了准确性,值得信赖的机器学习是基于机器学习的技术实现和发展的最后一个里程碑。值得信赖的机器学习包含了一系列基本主题,如对抗鲁棒性、公平性、可解释性、问责性和伦理

这本书的重点是实现对机器学习算法、模型和系统的评估、改进和利用对抗鲁棒性的努力,以实现更好、更值得信任的版本。利用不受信任的机器学习作为漏洞,为有意的一方创造无人看管的入口,操纵机器预测,同时避开人类的注意,以获得自己的利益。无论一个人在ML中的角色是什么,作为模型开发人员、利益相关者还是用户,我们相信每个人都必须了解机器学习的对抗鲁棒性,就像在开车前了解自己车辆的性能和限制一样。对于模型开发人员,我们提倡对您自己的模型和系统进行主动的内部鲁棒性测试,以进行错误检查和降低风险。对于利益相关者,我们主张承认产品和服务可能存在的弱点,并以前瞻性的方式进行诚实和彻底的风险和威胁评估,以防止收入/声誉损失和对社会和环境的灾难性破坏。对于使用机器学习副产品的用户,我们主张积极了解其安全使用的局限性,并了解可能的误用。这些与对抗鲁棒性相关的方面,以及可用的技术和工具,在本书中进行了阐述。

一般来说,对抗鲁棒性集中在机器学习中最坏情况性能的研究,而标准机器学习实践则关注平均性能,例如对测试数据集的预测精度。最坏情况分析的概念是由确保机器学习对训练环境和部署场景的变化进行鲁棒和准确预测的必要性激发的。具体来说,这种变化可能是由自然事件(例如,由于不同的光照条件导致的数据漂移)或恶意尝试(例如,旨在妥协并获得基于机器学习的系统/服务控制权的黑客)引起的。因此,与其问“机器学习在给定数据集/任务上的表现如何?”,在对抗性鲁棒性中,我们问“如果数据集或模型可以经历不同的可量化水平的变化,机器学习的鲁棒性和准确性如何?”这种干预过程通常涉及在机器学习中引入虚拟对手以进行鲁棒性评估和改进,这是对抗性机器学习的关键因素。

本书旨在提供对抗性鲁棒性的整体概述,涵盖机器学习的生命周期,从数据收集,模型开发,到系统集成和部署。内容为机器学习的对抗鲁棒性研究提供了一套全面的研究技术和实用工具。本书涵盖了以下四个研究重点在对抗鲁棒性:(i)攻击-寻找机器学习的失败模式;(ii)防御——加强和保护机器学习;核证-制定可证明的稳健性业绩保证;和(iv)应用——基于对抗性鲁棒性研究发明新的用例。

我们将本书各部分的内容总结如下。在第1部分中,我们介绍了本书的初步内容,将对抗性鲁棒性与对抗性机器学习联系起来,并提供了有趣的发现来激励对抗性鲁棒性。在第2部分中,我们介绍了不同类型的对抗攻击,对攻击者在机器学习生命周期、目标机器学习系统知识、数字和物理空间的实现以及数据模态中的能力进行了不同的假设。在第3部分中,我们介绍了量化神经网络可证明鲁棒性水平的认证技术。在第4部分中,我们将介绍用于提高机器学习对对抗性攻击的鲁棒性的防御。最后,在第5部分中,我们介绍了几个从机器学习的对抗鲁棒性研究中获得灵感的新应用。

成为VIP会员查看完整内容
56

这本关于数学逻辑的新书由Jeremy Avigad从句法的角度全面介绍了该学科的基本结果和方法,强调逻辑是对形式语言和系统及其正确使用的研究。主题包括证明理论、模型理论、可计算性理论和公理基础,并特别强调计算机科学的基础数学逻辑方面,包括演绎系统、构造逻辑、简单类型lambda演算和类型理论基础。清晰和引人入胜,有丰富的例子和练习,它是一个优秀的介绍,为研究生和高级本科生谁对逻辑感兴趣的数学,计算机科学,和哲学,和任何实践逻辑学家的书架宝贵的参考。在短语数理逻辑中,“数学的”一词是模糊的。它可以用来指定所用的方法,这样这个短语就指的是数学中对推理原理的研究。可以对所考虑的推理类型进行划分,因此该短语指的是专门研究数学推理的研究。或者它也可以用来表示目的,因此这个短语指的是着眼于数学应用的逻辑研究。在这本书的标题中,“数学的”一词指的是前两种意思,而不是第三种意思。换句话说,数学逻辑在这里被看作是对数学推理方法的数学研究。这门学科本身就很有趣,而且在数学上也有应用。但它在计算机科学中也有应用,例如,硬件和软件的验证,以及数学推理的机械化。通过提供数学的理想模型,它也可以为数学哲学提供信息。逻辑作为一门学科的区别在于它对语言的关注。主体从正式的表达式开始,这些表达式被认为是我们用来定义对象、声明声明和证明它们的非正式语言的模型。在这一点上,两种截然不同的观点出现了。从语义的角度来看,形式表达式用于描述抽象的数学对象和结构。它们可以用来描述像群、环和场这样的结构类;描述特定结构,如欧几里得平面或实数;或者描述一个特定结构中的关系。从这个角度来看,数学逻辑是一门关于参考、可定义性和真理的科学,它阐明了决定数学语言和它所描述的数学结构之间关系的语义概念。本书采用了更多的句法视角,其中主要的兴趣对象是表达式本身。从这个角度来看,形式语言是用来推理和计算的,我们关心的是规范它们正确使用的规则。我们将使用形式系统来理解数学推理的模式以及数学定义和证明的结构,我们还会对我们能用这些语法表示来做的事情感兴趣。我们不会回避使用语义方法,但我们的目标是使用语义来阐明语法,而不是相反。语法方法之所以有价值,原因有很多。句法的数学理论本身就很有趣,而且信息量大。对语法对象的关注也与计算机科学更加一致,因为这些对象可以表示为数据并通过算法进行操作。最后,还有哲学上的好处。因为有限符号串的一般理论是处理表达式所需要的,句法视角提供了一种研究数学推理的方法——包括无限对象和方法的使用——而不必从一开始就引入强大的数学预设。这本书的另一个显著特点是它对计算的关注。一方面,我们期望数学能给我们一个广泛的概念理解。在这个主题的经验边界上,这有助于组织和解释我们的科学观察,但我们对理解的渴望并不局限于经验现象。另一方面,我们也希望数学能告诉我们如何计算轨迹和概率,这样我们就能做出更好的预测和决定,理性地行动,以实现我们的实际目标。概念理解和计算之间存在着张力:计算是重要的,但我们经常通过抑制计算细节看得更远,推理更有效。

卡耐基梅隆大学哲学系和数学科学系的教授,并参与卡耐基梅隆大学纯粹与应用逻辑跨学科项目。

https://www.cmu.edu/dietrich/philosophy/people/faculty/jeremy-avigad.html

成为VIP会员查看完整内容
59

近几十年来,数字计算机效率的进步和用于数值计算的可靠软件的发展,导致了数值优化理论、方法和算法的快速发展。这一知识体系促进了优化方法在许多学科(例如,工程、商业和科学)的广泛应用,并随后导致了不久之前被认为是棘手的问题解决方案。

https://link.springer.com/book/10.1007/978-1-0716-0843-2 这一独特的和全面的教科书提供了一个广泛的和实际的处理的主题优化。本书的每半部分都包含了一个完整学期的补充,但独立的材料。在这个大大增强的第二版中,作者增加了关于最近的创新、技术、方法和许多问题和例子的章节。这些特点使本书适合在一年级研究生课程或高级本科课程的一两个学期使用。

主要特点:

证明和广泛的类测试内容 提出了无约束优化和有约束优化的统一处理方法,使其成为一本两用教科书 介绍了凸规划、序列二次规划、乘法器的交替方向法(ADMM)和凸-凹过程等方面的新材料 包括半定和二阶锥规划等方法 为无约束优化和有约束优化的最先进的应用添加新材料 提供一个完整的教学包与许多MATLAB示例和在线解决方案的章节结束的问题 使用一种实用的、可访问的优化处理方法 提供两个涵盖背景理论的附录,以便非专家可以理解基本理论 凭借其强大而实用的优化处理,这一经典教科书的显著增强修订版将是大学和大学生学习不可或缺的,也将成为科学家和行业专业人士有用的参考卷。

在过去的三十年中,数字计算机效率的快速提高和可靠的数值计算软件的发展导致了数值优化的理论、方法和算法的惊人增长。这一知识体系反过来促进了优化方法在许多学科的广泛应用,如工程、商业和科学,并导致了不久之前被认为是棘手的问题的解决方案。尽管有许多优秀的书籍以数学的严谨性和精确性来处理优化问题,但似乎仍需要一本书来提供针对从大学生到科学家和行业专业人员等更广泛受众的该主题的实用处理方法。这本书就是为了满足这种需要而写的。它统一对待无约束优化和有约束优化,特别关注优化的算法方面,使读者能够将各种算法和方法应用到感兴趣的具体问题。为了促进这一过程,本书提供了许多解决的例子,说明所涉及的原则,并包括,另外,两章专门处理无约束和有约束优化方法在模式识别、控制系统、机器人、通信系统和数字滤波器设计等领域的应用。对于每个应用程序,都提供了足够的背景信息,以促进对用于获得所需解决方案的优化算法的理解。

第一章简要介绍了优化和优化算法的一般结构。第2章到第9章涉及无约束优化方法。第二章介绍了局部极小化的一阶和二阶必要条件、二阶充分条件和凸函数的优化。第三章讨论了算法的一般性质,如下降函数、全局收敛和收敛速度的概念。第四章介绍了一维优化的几种方法,通常称为直线搜索。本章还讨论了在许多优化算法中提高效率的非精确直线搜索方法。第五章介绍了几种基本的梯度方法,包括最陡下降法、牛顿法和高斯-牛顿法。第六章给出了一类基于共轭方向概念的方法,如共轭梯度法、Fletcher-Reeves法、Powell法和Partan法。第7章介绍了一类重要的无约束优化方法,即拟牛顿方法。研究了该类的代表性方法Davidon-Fletcher-Powell和Broydon-Fletcher-Goldfarb-Shanno方法及其性质。本章还包括一个实用、高效、可靠的准牛顿算法,它消除了与基本准牛顿法相关的一些问题。第8章介绍了在许多应用中使用的极小极大方法,包括数字滤波器的设计。第9章给出了3个案例研究,将第4章到第8章中描述的几种无约束优化方法应用于点模式匹配、机器人机械手逆运动学和数字滤波器的设计。

第10章到第16章涉及约束优化方法。第10章介绍了约束优化的基本原理。本文详细讨论了拉格朗日乘子的概念、称为Karush-Kuhn-Tucker条件的一阶必要条件以及凸规划的对偶性原理,并通过许多例子加以说明。第11章和第12章涉及线性规划(LP)问题。第11章讨论了LP的一般性质和标准LP问题的单纯形方法。第12章介绍了几种内点方法,包括原始仿射尺度法、原始牛顿势垒法和原始对偶路径跟踪法。第十三章讨论二次凸规划和一般凸规划。研究凸二次规划的所谓活动集方法和几种内点方法。本章还包括一般凸规划问题的所谓切割平面和椭球算法。第14章介绍了两类特殊的凸规划,即半定锥规划和二阶锥规划,它们在许多学科中都有有趣的应用。第15章讨论了不属于凸规划一类的一般约束优化问题;特别强调了几种序列二次规划方法,这些方法通过使用高效的线搜索和有关的Hessian矩阵的近似来增强。本书的第16章总结了约束优化在数字滤波器设计、动态系统控制、机器人系统力分布评估和无线通信系统多用户检测方面的几种应用。

成为VIP会员查看完整内容
56

北京交通大学最新《深度因果模型》综述论文,31页pdf涵盖216页pdf详述41个深度因果模型,值得关注!

因果关系概念在人类认知中起着重要作用。在过去的几十年里,因果推理在计算机科学、医学、经济学和教育等许多领域都得到了很好的发展。随着深度学习技术的发展,它越来越多地用于反事实数据的因果推理。通常,深度因果模型将协变量的特征映射到一个表示空间,然后根据不同的优化方法设计各种目标优化函数,无偏估计反事实数据。本文对深度因果模型进行了综述,其核心贡献如下: 1)提供了多剂量和连续剂量治疗下的相关指标; 2)我们从时间发展和方法分类的角度整合了深度因果模型的全面概述; 3)我们协助对相关数据集和源代码进行详细和全面的分类和分析。

一般来说,因果关系指的是结果与产生结果的原因之间的联系。这种现象的原因和影响很难定义,我们往往只能凭直觉意识到它们。因果推断是一个根据因果关系发生的环境对因果关系作出结论的过程,在现实世界中有各种各样的应用。例如,估计广告中观察数据的因果效应[3,4,5,6,7,8,9],开发与因果治疗效果估计高度相关的推荐系统[10,11,12,13,14,15,16],学习医学中患者的最佳治疗规则[17,18,19],估计强化学习中的ITE[20,21,22,23,24,25,26,27,28],自然语言处理中的因果推理任务[29,30,31,32,33,34],新兴的计算机视觉和语言交互任务[35,36,37,38,39],教育[40],政策决策[41,42,43,44,45]和改进的机器学习方法[46]等。

深度学习在应用于大数据时有助于人工智能的发展[47,48,49,50]。与传统机器学习算法相比,深度学习模型计算效率更高,精度更高,在各个领域都有很好的表现。然而,许多深度学习模型是可解释性较差的黑盒,因为它们更关心作为输入和输出的相关性,而不是因果关系[51,52,53]。近年来,深度学习模型被广泛用于挖掘数据的因果关系而不是相关性[41,43]。因此,深度因果模型已成为基于无偏估计估计治疗效果的核心方法[19,44,45,54]。目前,许多因果推理领域的研究都是利用深层因果模型来选择合理的treatment 方案[55,56,57,58]。

在大数据中,所有趋势变量都是相关的[59],因此发现因果关系是一个具有挑战性的问题[60,61,62]。在统计学理论中,进行随机对照试验(randomized controlled trials, RCT)[63]是推断因果关系最有效的方法。换句话说,样本被随机分配到处理组或对照组。尽管如此,现实世界的随机对照试验数据是稀疏的,有几个严重的缺陷。涉及rct的研究需要大量特征变化不大的样本,难以解释,涉及伦理挑战。事实上,选择试验对象来尝试一种药物或疫苗是不明智的[64,65]。因此,因果效应通常直接用观察数据来衡量。获取反事实结果的一个核心问题是如何处理观测数据[66]。在分析观察数据时,处理并不是随机分配的,处理后的样本的性能与普通样本的性能有显著差异[41,43]。不幸的是,我们无法在理论上观察到其他结果,因为我们无法观察到反事实结果[67]。主流研究的一个长期特征是使用潜在结果框架作为解决观察数据因果推断问题的手段[68]。潜在结果框架也被称为Rubin因果模型[69]。因果推理与深度学习密切相关,因为它是使用Rubin因果模型概念化的。为了提高估计的准确性和无偏性,一些研究人员尝试将深度网络和因果模型结合起来。举例来说,考虑分配平衡方法[41,43,44]的表示,协变量混杂学习方法[54,70,71]的效果,基于生成对抗网络的方法[45,72,73]等[58,34,74]。由于深度学习方法促进了因果推理,因果推理也有助于深度学习方法的发展。除了提高因果效应估计的准确性,深度网络的研究为开发深度学习算法提供了一个合理的基础[75,76]。

近年来,人们对因果推理的各种观点进行了讨论[77,1,78,79,80,81,82,83,2]。表1列出了相关综述的标题和要点。文献[77]深入分析了因果推理的起源和变量发展,以及因果学习对因果推理发展的影响。此外,调查[1]对传统和前沿的因果学习方法进行了概述,并对机器学习和因果学习进行了比较。许多学者讨论了如何解释机器学习。随后,为了创建可解释的人工智能算法,survey[79]结合了因果推理和机器学习。作为一种新颖的视角,因果表征学习正在蓬勃发展,综述[80]利用它从低级观察中发现高水平的因果变量,加强了机器学习和因果推理之间的联系。由于近年来因果机器学习的流行,综述[78]对图因果推理与机器学习的相关性进行了详细的讨论。此外,在调查[81]中,作者考察了机器学习的最新进展如何应用于因果推理,并对因果机器学习如何有助于医学科学的进步提供了全面的解释。正如综述[82]所认为的,基于深度学习可以改进和整理因果发现方法,可以探索可变范式来帮助思考和探索因果发现方法。推荐系统中的因果推理是调查的重点[83],它解释了如何使用因果推理来提取因果关系,以增强推荐系统。长期以来,统计的潜在结果框架一直是连接因果推理和深度学习的桥梁,作为起点,综述[2]检查并比较了满足这些假设的不同类别的传统统计算法和机器学习算法。由于深度学习算法的快速发展,现有文献在考察泛化时没有考虑深度因果模型。因此,我们从深度网络的角度,从时间和分类两方面总结了深度因果模型。本综述对近年来的深度因果模型进行了全面的回顾和分析。它有三个核心贡献: 1)我们在多次treatments 和连续剂量treatments 的情况下纳入了相关指标。2)我们从方法分类和时间发展的角度对深层因果模型进行了全面的概述。3)我们在相关数据集和源代码的分析和分类方面提供详细和全面的支持

以下是论文其余部分的大纲。如第2节所述,本文将介绍深度因果模型以及定义和假设。在第3节中,介绍了适当的例子和度量,包括二元treatment、多重treatment和连续剂量treatment。第4节展示了一个深度因果模型,包括概述和分析。第5节讨论了深度因果模型的方法,包括分布平衡方法、协变量混杂学习方法、基于生成对抗网络的方法、基于文本输入时间序列的方法以及基于多treatment和连续剂量treatment模型的方法。相关实验指南的列表如下第6节。论文的摘要在第7节中给出。

深度因果模型

通过对背景和基本定义的深入理解,本节将进入深度因果模型的核心。本文概述了深度因果模型及其在过去六年间的发展,包括基于时间轴的41个深度因果模型的分析。

近年来,深入因果模型的研究越来越受欢迎。随着深度学习的发展,各种深度因果模型在估计因果效应方面变得更加准确和有效。根据图1,我们列出了2016年6月至2022年2月期间约40个经典的深度因果模型,包括它们的详细名称和提出时间。深度因果模型从2016年开始开发。Johansson等首次发表了反事实推理的学习表示[41],提出了算法框架BNN和BLR[41],将深度学习与因果效果估计问题相结合,将因果推理问题转化为领域适应问题。从那时起,许多模型被提出,包括DCN-PD[110], TARNet和CFRNet[43]。在这方面,需要注意的是,Louizos等人在2017年12月提出的基于深度网络经典结构参数自编码器VAE的CEVAE[54]模型,主要关注混杂因素及其对因果效应估计的影响。

图1: 深度因果模型的发展

在2018年以及2019年,人们对因果表征学习的兴趣越来越浓厚。首先,我们联合提出了Deep-Treat[19]和RCFR[111]模型。在GANITE[45]模型推出后,使用生成对抗模型[112]体系结构进行反事实估计成为因果推理领域的主流。根据前面的工作,对CFR-ISW[113]、CEGAN[72]、SITE[44]进行了优化。R-MSN[74]模型于2018年12月实现,利用循环神经网络[114]解决多治疗时间序列的连续剂量问题,开辟了深层因果模型。为了解决这一问题,2019年5月提出了PM[42]和TECE[104],用于与多个离散处理相关的因果效应估计。作为后续,CTAM[34]开始专注于估算文本数据的因果影响;Dragonnet[71]首次将正则化和倾向评分网络引入因果模型;ACE[55]试图从表示空间中提取细粒度的相似度信息。对于RSB的[115]2019年12月版,使用深度表示学习网络和PCC[116]正则化来分解协变量,使用工具变量来控制选择偏差,使用混杂和调节因素来预测。

深度因果模型在2020年蓬勃发展。首先,DKLITE[56]模型结合了深核模型和后验方差正则化。然后,DR-CFR[117]应用三个表示网络、两个回归网络和一个预测网络对协变量的选择偏倚进行解耦;GAD[118]则关注持续剂量治疗的因果效应;DRGAN[119]定义了一种用于拟合样品剂量效应曲线的创新生成对抗网络;CRN[120]通过结合反事实循环神经网络来估计随时间变化的治疗效果。TSD[121]在估计了多原因混杂下的时间序列因果效应后,转向估计时间序列因果效应。在潜在表征空间中,ABCEI[122]使用GAN平衡了治疗组和对照组的协变量分布。在前人研究的基础上,BWCFR[123]、LaCIM[124]对结构思想进行了优化。此外,SCIGAN[73]、DRNet[57]在2020年将连续剂量扩展到任意数量的treatment 问题,VSR[125]以重新加权的方式聚合深度神经网络潜在变量。

从2021年到2022年,因果模型变得更加创新、开放和灵活。VCNet[58]模型实现了连续平均剂量-响应曲线的估计。截至2021年5月,NCoRE[126]使用跨treatment 交互作用建模来理解产生多种治疗组合的潜在因果过程。之后,CETransformer[127]利用Transformer[128]对协变量进行表征,注意力机制集中在协变量之间的相关性上。在此基础上,DONUT[129]和DeR-CFR[70]基于之前的工作进行优化。SCI[75]将子空间理论用于因果表征学习,拓宽了研究者的思路。FlexTENet[130]提出了一种多任务自适应学习架构。此外,SCP[131]采用两步程序评估多因素治疗效果。为了构建这种合成双胞胎匹配表示,SyncTwin[132]利用了结果中的时间结构。最后,TransTEE[76]将表征分布平衡方法扩展到连续的、结构化的和剂量依赖的treatment,使其作为因果效应估计问题更加开放。下一节将分析同一类别的所有模型,并基于深度学习结构的使用和模型所使用的共同思想进行比较。

成为VIP会员查看完整内容
55

《人工智能与工业4.0》探讨了区块链技术和人工智能(AI)的最新进展,以及它们对实现工业4.0目标的关键影响。这本书探讨了人工智能在工业中的应用,包括物联网(IoT)和工业物联网(IIoT)技术。本章探讨了人工智能(机器学习、智慧城市、医疗保健、社会5.0等)在工业4.0时代的众多潜在应用。这本书是研究人员和研究生在计算机科学研究和发展人工智能和工业物联网有用的资源。

介绍了物联网领域广泛的机器学习、计算机视觉和数字双胞胎应用, 探讨了深度学习和认知计算工具如何能够处理大量数据集,精确和全面的风险预测,并提供建议的行动。

成为VIP会员查看完整内容
49

日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高效感知与综合理解手段, 是人工 智能领域的重要研究内容, 也是实现“通用人工智能”的关键之一. 近年来, 随着多模态时空数据 的海量爆发和计算能力的快速提升, 国内外学者提出了大量方法, 以应对日益增长的多样化需求.**然而, 当前的多模态认知计算仍局限于人类表观能力的模仿, 缺乏认知层面的理论依据. 本文从信 息论角度出发, 建立了认知过程的信息传递模型, 结合信容 (Information Capacity) 概念, 提出了 多模态认知计算能够提高机器的信息提取能力这一观点, 从理论上对多模态认知计算各项任务进 行了统一. 进而, 根据机器对多模态信息的认知模式, 从多模态关联, 跨模态生成和多模态协同这 三个方面对现有方法进行了梳理与总结, 系统地分析了其中的关键问题与解决方案. 最后, 结合当 前阶段人工智能的发展特点, 重点思考多模态认知计算领域面临的难点与挑战, 并对未来发展趋势 进行了深入分析与展望。

https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0226

1. 引言

让机器像人类一样智能地感知周围环境并做出决策, 是人工智能的目标之一. 在对信息的 处理模式上, 人类与机器存在巨大差异. 为构建模拟人类认知模式的智能系统, 英国 Ulster 大学 的研究者在 2003 年将“认知计算”(Cognitive Computing) 的概念引入信息领域, 重点关注认知 科学与传统的视音频, 图像, 文本等处理之间互相联系的机理和机制, 并且开设了相应的教学课 程. 在本世纪初, X. Li 创立了 IEEE-SMC 认知计算技术委员会, 当时为认知计算给出的目标是: “Cognitive Computing breaks the traditional boundary between neuroscience and computer science, and paves the way for machines that will have reasoning abilities analogous to a human brain. It’s an interdisciplinary research and application field, and uses methods from psychology, biology, signal processing, physics, information theory, mathematics, and statistics. The development of Cognitive Computing will cross-fertilize these other research areas with which it interacts. There are many open problems to be addressed and to be defined. This technical committee tackles these problems in both academia and industry, and focuses on new foundations/technologies that are intrinsic to Cognitive Computing1) .”十几年来, 认知计算逐渐受到各领域学者的关注。

在现实生活中, 人类利用视觉, 听觉, 触觉等多种感官认识世界, 不同感官刺激交融形成统一的 多感觉体验. 这种多感官协作对于机器而言即为“多模态”. 认知神经学研究[1] 表明, 一类感官刺激 可能会作用于其他感官通道, 这种现象被称为“联觉”(Synaesthesia). 2008 年, Li 等人在“Visual Music and Musical Vision[2]”一文中首次将联觉引入信息领域, 并从信息度量角度计算多模态数据 的关联, 尝试性地探讨了“多模态认知计算”的理论及应用. 随着人工智能第三次发展高潮的影响 逐渐深化, 多模态认知计算迎来了新的发展机遇, 成为航空航天, 智能制造, 医疗健康等重大领域共 同关注的研究课题, 对推动我国人工智能战略发展具有重要意义. 在国内, 相应的研究和探索也有较 长的历史和积累, 有很多顶尖的研究团队. 2008 年, 国家自然科学基金委员会设立的重大研究计划 “视听觉信息的认知计算”, 实施以来取得了丰硕成果. 2017 年, 国务院印发了《新一代人工智能发 展规划》, 明确提出“建立大规模类脑智能计算的新模型和脑启发的认知计算模型”, 研究“以自然 语言理解和图像图形为核心的认知计算理论和方法”. 当前, 多模态认知计算研究已从学术牵引转 化为需求牵引, 在图像, 视频, 文本, 语音等海量多模态数据和强大算力的支撑下, 国内外各大知名企 业与研究机构纷纷加入此项研究中. 然而, 在蓬勃发展的背后, 多模态认知计算的理论机理仍不明确. 认知神经学家提出了大量理论与假设来刻画人类对多感知模态的认知过程. 而在信息领域, 多模态 认知计算仍停留在人类认知的观察和模仿阶段, 缺乏机理性解释与统一的学习理论框架.

本文尝试以认知为切入点, 阐释多模态认知计算的理论意义. 认知是人类从现实世界中提取并 加工信息的过程, 外界信息通过视, 听, 嗅, 味, 触等多种感知通道传送到大脑, 对大脑皮层产生刺激. 神经科学相关研究[3] 表明, 多种感官刺激的联合作用会产生“整体大于局部之和”的效果. 例如, 在 观看影视剧时, 画面和声音的同时刺激会给人类带来深刻, 全面的感受, 也帮助人类更准确地理解影 视内容. 这种现象是如何产生的? 认知科学研究[4] 指出, 人类在接收外界刺激时会选择性地关注其 中的一部分. 这种“注意力机制”作为人类认知能力的重要组成部分, 有效提高了信息加工的效率. 当影视画面与声音同步时, 人类的注意力并不会被分散, 而会集中在影视剧中发生的事件上, 视觉与 听觉感官同时得到了关注. 基于上述观察, 本文提出以下假设:当同一事件引起多种感官的同步刺 激时, 不同感官通道共享注意力, 人类可以感知更多信息. 从认知计算角度出发, 本文利用信息论的 理论对上述假设进行建模. 信息论奠基人 C. Shannon 在 1948 年的文章“A Mathematical Theory of Communication”中提出了信息熵的概念, 用其表示随机变量的不确定程度, 为信息量的度量提供 了解决方案. 根据信息熵定义, 假设事件空间 X 的概率分布已知, 事件 x 的概率为 p(x), 其所带来 的信息量为

事件的概率越小, 其发生所提供的信息量越大. 例如, 红色天空比蓝色天空出现的概率小, 一般来说 其信息量也就相对更大. 同时, 在不同认知任务中, 事件的发生概率存在差异, 提供的信息量也有所区别. 例如, 红色天空为气象学研究带来的信息量要高于其对心理学研究提供的信息量. 对于给定认 知任务 T, 事件 x 提供的信息量为

从公式 (4) 中可看出, 当注意力集中在模态密集的时空事件时, 获取的信息量达到最大值. 因此, 个 体可以利用多模态时空数据获取更多信息

近年来, 注意力机制在计算机视觉, 自然语言处理等领域的广泛应用, 证明了对特定事件的关注 有助于提高机器的学习能力, 而多模态学习的成功也印证了多模态时空数据联合方面的优势. 因此, 公式 (4) 中的模型可以尝试解释多模态认知计算的内在机理, 刻画机器从数据中提取信息的过程. 然而, 是否获取到的信息量越大, 机器就越接近人类的认知水平? 当前, M6[11] , CLIP[12] 等通用多模 态学习模型已经在特定任务上取得了接近于人类的效果. 如表1所示, 这些模型往往需要千万级的训练数据, 与人类认知能力还存在很大差距. 将单位数据的信息提供能力定义为“信容”(Information Capacity)[13] , 与此对应, 机器的认知能力即为从单位数据获取最大信息量的能力:

其中 D 为事件空间 X 的数据量. 因此, 可以从三方面提升机器的认知能力(1) 优化 A, 即使机器 获得更大信息量; (2) 增大 I, 即利用对于给定任务信息量更大的数据; (3) 减小 D, 即减小数据量. 利用尽可能少的数据实现信息量的最大化, 即代表了更强的认知能力. 因此, 本文围绕以上三个共性 关键问题, 以提升机器认知能力为核心, 对多模态关联, 跨模态生成和多模态协同三个基本任务进行 了梳理, 如图1所示. 具体如下: (1) 多模态关联是提高 ρ 的基础. 它通过挖掘不同子模态事件在空间, 事件, 语义层面的内在一 致性, 将子模态事件映射到统一的信息空间, 实现多模态的对齐, 感知与检索识别. 通过多模态关联, 可以挖掘不同模态间的对应关系, 以进一步提升认知能力. (2) 跨模态生成通过增大 I, 减小 D 来提升 ρ. 它将信息以模态为载体进行传输, 利用不同模态 的差异性, 对已知信息进行跨模态的合成与转换. 在跨模态合成中, 利用更加直观, 易于理解的模态 对信息进行丰富和补充, 增大 I. 在跨模态转换中, 寻找更加简洁的表达形式, 在保留信息的同时, 减 小 D, 以此提升信息获取能力. (3) 多模态协同通过优化 A 以实现信息量 K 最大化. 它利用不同模态间的关联与互补, 探究高 效, 合理的模态间联合机制, 优化 A. 通过学习以图像, 视频, 文本, 语音为代表的多模态数据的一致 性表达, 实现信息的融合与增强以提升在任务 T 上的性能.

反观人类认知, 认知的提升离不开对现实世界的联想, 推理, 归纳与演绎, 与多模态认知计算中 的关联, 生成, 协同对应. 本文将人类与机器的认知学习统一为提高信息利用率的过程. 随着人工智 能的影响逐渐深化, 多模态认知计算的研究向深度和广度飞速拓展. 作为多模态认知计算的三条主 线, 多模态关联, 跨模态生成和多模态协同是提升机器认知能力的有效途径, 已成为国内外科研人员 密切关注的研究热点. 本文对相关工作展开详尽的调研和介绍, 系统性地梳理了多模态关联, 跨模态 生成和多模态协同的历史沿革和发展现状, 深入地讨论了多模态认知计算领域面临的机遇和挑战, 并 对其未来的发展方向和路径进行了思考与展望.

本文的组织框架如下:第二节, 介绍了多模态关联任务的发展现状, 分为多模态对齐, 多模态感 知和多模态检索三个部分, 并进行分析与讨论; 第三节, 介绍了跨模态生成任务中的跨模态合成和跨 模态转换方法, 并进行分析与讨论; 第四节, 从模态融合和联合学习两个方面介绍多模态协同任务, 并进行分析与讨论; 第五节, 对多模态学习面临的挑战和未来发展趋势进行探讨与展望; 第六节, 围 绕多模态认知计算中的开放问题展开设想; 第七节, 对全文进行总结。

**2 多模态关联 **

多模态感知与学习, 通常是通过对同一个实体或时空事件在不同模态空间内予以阐述或描述, 从 而得到不同模态的数据. 例如, 采用 RGB-D 相机对同一场景进行拍摄而得到 RGB 彩色图像描述和 Depth 深度距离描述; 采用摄像机对说话人进行语音采集得到其说话内容的语音信息和相对应的唇 部运动信息, 这些多模态描述能够更全面的刻画同一客观实体的多维度信息, 从而提升模型的理解与 认知能力. 由于不同模态在表征同一客观实体时所能获得的信息量是不同的, 例如, 在上述对说话信 息表征时, 语音获取的说话内容信息量一般要高于从视觉唇部获取的信息量. 虽然不同模态所获得 的信息量是不同, 但是因为它们表述的是同一客观实体, 因此其所获得的信息是存在较强关联关系 的, 如发出不同的音素时, 其唇部的视觉运动表现是不同的. 因此, 为了有效刻画多种模态信息间的 关联, 需要对不同模态所获得的信息量进行有效分析与对齐, 进而实现高质量的多模态感知与学习. 即在对不同模态所获取的信息量进行联合感知求和基础上, 需进行高质量的信息关联与对齐, 从而为 后续的多模态感知与检索奠定基础. 例如, 对于模态 i 和 ˜i, 基于不同模态所获得的信息量, 通过特定 函数 f(·), 实现不同模态信息量的关联对应, 即

通过优化不同模态所获取信息间的关联目标 f(·), 实现不同模态间关联关系的获取. 本节从多模态 对齐, 多模态关联和多模态检索三方面阐述多模态关联相关工作. 其中, 多模态对齐是一类基础性需 求, 如图像区域内容和文字词汇的语义对齐, 视觉唇部运动与语音声素之间的时间对齐等. 在对齐的 基础上, 通过最大化模态间关联满足多模态感知, 检索等实际任务需求.

3. 跨模态生成

正常状态下, 人类的多通道感知和中枢思维系统使其具有天然的跨通道推理和生成能力. 例如, 阅读一段小说情节时脑海中会自然浮现相应的画面. 参考这一现象, 本文将多模态认知计算中跨模 态生成任务的目标定义为赋予机器生成未知模态实体的能力. 传统的机器生成任务通常在单一且固 定的模态上进行, 例如利用已知的一段对话生成后续情节[68] , 或利用已有图像合成一张新的图像[69] . 类比于此, 跨模态生成是涉及多种不同模态信息的实体生成过程, 利用多模态信息之间的一致性和补 充性来生成新模态下的事物. 从信息论的角度看, 跨模态生成任务促使不同模态之间通过信息流动, 提升个体在既定时空内可感知的信息量. 假设已知某实体已知 m 个模态信息 {X1, X2, · · · , Xm}, 跨 模态生成任务可以概括为

其中 Xp 是缺失待恢复的模态实体. 随着自然语言处理, 智能语音, 计算机视觉等技术的快速发展, 建立在文本, 语音, 图像, 视频上的跨模态生成任务层出不穷, 例如一句话生成图像[70] , 一段场景产生音频[71] 等. 这些不同模态对信息表达方式的不同, 对信息的传达能力有很大差异. 在绝大多数人的 认知世界中, 一定时空和目标条件下文本, 音频, 图像, 视频这些模态信号能传递的信息量是逐渐上 升的. 简单来说, 同一事物的声音比文字能直观传达的信息要更加丰富, 而图像相比声音更加直观一 些. 大多数情况下, 日常生活中广播比文字要更容易被多数人接纳; 当看到一张狗的照片时就比听到 这只狗的声音了解的更多; 而动态的视频带给人类的感受要更加深刻. 但同时, 同一事物用信息量丰 富的模态来描述时也占据更大的存储空间, 带来信息处理效率上的负担. 综合两方面因素, 本文从认 知计算的角度将跨模态生成任务的本质归纳为在多模态信息通道内提高机器认知能力的问题. 进一 步地, 可以将该任务划分为提高信息量 I 和减小数据量 D 两种方式, 即跨模态合成和跨模态转换两 大类. 下面详细介绍这两类跨模态生成技术.

4 多模态协同

归纳和演绎是人类认知的重要功能. 人类可以轻松自如地对视, 听, 嗅, 味, 触等多模态感知进行 归纳融合, 并进行联合演绎, 以做不同的决策和动作. 在多模态认知计算中, 多模态协同是指协调两 个或者两个以上的模态数据, 互相配合完成多模态任务. 为了实现更加复杂的任务并提升精度和泛化能力, 多模态信息之间要相互融合, 达到信息互补的目的. 呼应前文, 这本质上是对注意力 A 的优化:

进一步地, 融合后的多模态信息要进行联合学习, 以实现多模态信息对单一模态的超越, 即

信息量的增加可以提高单模态任务的性能, 也为开发创新性多模态任务提供了可能. 从生物学角度来看, 多模态协同和人类综合多种知觉作出反应是相似的. 近年来, 随着传感器技 术, 计算机硬件设备和深度学习技术的更新换代, 多模态数据的获取, 计算和应用也变得日新月异. 同时, 建立在视觉, 声音和文本等模态上的多模态协同研也究取得长足发展. 本章节重点总结了多模 态协同中的模态融合与联合学习方法. 其中, 模态融合分为前期, 后期和混合融合策略, 如图6所示. 联合学习根据其目的不同分为提升单模态任务性能和解决新的挑战性问题. 接下来, 本章节将分别 进行介绍。

**5 多模态认知计算的难点和未来发展趋势 **

近年来, 深度学习技术在图像处理, 自然语言处理等领域取得了长足的发展, 推动着多模态认知 计算向理论研究和工程任务的纵深发展. 在数据形式快速迭代和应用需求多元化发展的背景下, 多 模态认知计算也面临新的问题和挑战. 从宏观角度来看, 前述所有任务都是围绕公式 (5) 中的数据 (D), 信息量 (I) , 融合机制 (A) , 和任务 (T) 来提升机器认知能力 (ρ). 本章节将从以上四个方面对 多模态认知计算当前的难点进行剖析, 并对未来的发展趋势进行展望和思考.

6 开放性问题讨论

6.1 人类认知与人工智能如何结合?

目前, 多模态认知计算的发展如火如荼. 大多数研究工作聚焦在人工智能领域, 致力于对视听嗅 味触等多模态数据的分析, 以完成各种复杂任务. 在过去的几十年来, 人类的“联觉”, “知觉重塑” 和“多通道知觉”为多模态数据的关联、生成与融合提供了指导依据, 开启了多模态认知计算研究 的序章. 但是, 人类认知存在太多未知和不确定. 人类认知是如何形成的? 其背后的机理是什么? 目 前并不完全清楚. 缺乏认知进一步指导的多模态认知计算, 很容易陷入数据拟合的陷阱. 本文作者曾 在视觉与学习青年学者研讨会 (VALSE) 上作为联合组织者发起过相关的线上 (2020) 和线下研讨会 (2022) , 聚焦上述问题, 侧重从人类的多感官认知入手, 探究当前多模态相关研究与其的区别与联系. 未来, 多模态认知计算将如何迈向认知? 人类具有高可靠及较强泛化性能的多模态感知能力, 尤 其是当部分感官能力缺失的情形下, 能够通过其他感官对缺失的能力进行一定能出补充. 认知神经 科学家认为, 这种现象的潜在生理学基础可能是不同感官在信息编码中存在一个高级别语义的自组 织关联网络, 该网络与特定模态类型无关, 但是可以直接关联到不同模态中, 从而实现高效的多模态 感知. 对于多模态认知计算而言, 构建有效架构是提高多模态感知能力的关键一环. 本文认为, 可构 建以“元模态”为核心的模态交互网络, 学习与特定模态类型无关的内在属性, 从而最大化关联与对 齐不同的模态语义内容. 元模态指向一个紧致的低维空间, 可以实现到不同模态空间的投影, 从而具 备更加泛化的表征能力.

6.2 多模态数据带来了什么?

近年来, 结合多模态数据的人工智能确实取得了更好的性能表现. 这显而易见, 在合理的模型优 化方式下, 输入信息的增加往往会得到更好的结果. 但是, 再深入思考一下, 多模态数据到底带来了什么额外的信息, 又是如何提升性能的呢? 实际上, 多模态数据带来信息的同时, 也带来了大量噪声 和冗余, 会出现信容降低的问题, 增加模型学习压力. 这会导致某些情况下, 多模态数据的性能不如 单一模态. 本文尝试从信息的角度给出如上问题的解释. 多模态信息之间具有相似性与互补性. 其中, 相似 性部分是各个模态信息的交集, 即互信息, 代表了从不同模态描述同一场景的不同方面. 相似性部分 对场景进行了更加综合地描述, 可以达到“兼听则明”的效果, 提升模型场景理解的鲁棒性. 互补性 部分是各个模态信息的并集, 信息论里称为“联合熵”, 代表了不同模态之间的差异性, 也包含噪声 部分. 互补性部分是任一模态都不具备的, 它对单一模态的感知能力进行了拓展, 以获得更好的场景 理解性能, 达到模拟人类联觉的能力。

**6.3 多模态认知计算面临哪些真实场景? **

现有多模态认知计算研究大都集中在图像视频数据中, 聚焦视听模态的分析. 这主要得益于近 年来智能手机的普及和社交网络的快速发展, 使得图像视频数据爆炸式增长, 传播方式也日趋便利. 但是, 真实世界的多模态感知面临更加复杂的情况, 这里以机器人和临地安防为例. 机器人将是多模态认知计算的一个典型应用. 机器人的目的是像人类一样去感知去思考. 假设 一个机器人要在真实环境中进行多模态感知, 首先, 要对视听嗅味触传感器进行集成, 目前针对前端 传感器的研究明显不足. 然后, 感知要在三维空间中进行, 而不再是视频画面中进行, 这就要求具有 三维感知能力. 最后, 感知是在动态环境中进行, 会存在机器与环境, 各个模态与环境, 以及各个模态 之间的交互, 这也是以后研究中需要重点考虑的. 临地安防 (Vicinagearth Security) 也为多模态认知计算提供了广阔的应用前景. 随着低空空域 资源的逐渐释放和海洋开发能力的全面提升, 人工智能开始在涵盖低空, 地上, 水下的临地空间发挥 作用, 涉及搜救, 巡检等诸多安防问题. 以智能搜救为例, 无人机与地面无人设备的协同交互需要处 理不同传感器产生的大量数据, 多模态认知计算也成为解决此类任务的关键核心技术之一, 需要与跨 域智能交互, 涉水光学等研究课题紧密结合. 同时, 临地安防对实时性和高效性的要求也对多模态认 知计算提出了新的挑战. 在未来, 临地安防将成为多模态认知计算从理论走向应用的重要落地场景.

7 总结

信息领域的研究热点常常在获取—处理—反馈中迭代, 尤其前两者. 目前, 深度学习等处理方法 的发展如火如荼, 下一个热点很可能是数据获取, 那么多模态将会迈入新的发展阶段. 本文抛砖引 玉, 挂一漏万, 回顾了多模态认知计算的发展历程, 从理论, 方法和趋势三个方面展开分析与思考. 首 先, 构建信息传递模型刻画了机器从事件空间中提取信息的过程, 探讨了多模态认知计算的理论意 义. 然后, 阐述了多模态关联, 跨模态生成, 多模态协同三个主线任务的理论联系, 对各项任务进行了 统一. 通过对现有方法的分析与对比, 较为全面地展示了多模态认知计算的发展现状和关键技术. 进 而, 结合当前人工智能的发展背景, 从信息度量, 融合机制, 学习任务和数据获取等方面探讨了多模 态认知计算面临的挑战, 并讨论了未来值得探索的研究方向. 最后, 对多模态认知计算的开放性问题 进行了一些设想. 实际上, 人类能感知到的模态信息是有限的. 人类仅可以看到 400-700nm 的可见 光, 这是光谱中这很小的一部分; 只可以听到 20-20000Hz 的可闻声波, 这也是声波很小的一部分. 庆幸的是, 借助各种先进的光电设备, 我们感知到了可见光和可闻声波之外的更多信息. 未来, 随着感 知能力的进一步提升, 依托人类认知拓展物理感知边界, 实现信息域和认知域的统一, 是大势所趋. 希望本文能够为提升智能光电设备的感知能力和推动多模态认知计算的理论研究提供参考和启发。

成为VIP会员查看完整内容
58

来自牛津大学“Elizaveta Semenova”的报告《机器学习的数学与统计》,91页ppt,值得关注。理解机器学习所需的基本数学工具包括线性代数、解析几何、矩阵分解、向量微积分、优化、概率和统计。本报告包括线性代数、微积分、概率和统计学。

成为VIP会员查看完整内容
50

§ 课程概述与简介:

本课程主要面向硕士生,共32学时,暑期线上授课,讲述深度学习基本概念、经典深度学习模型及其实践,主要内容包括前馈神经网络、深度模型优化与正则化、 卷积神经网络、循环神经网络、无监督深度模型以及深度学习的局限性与前沿等,并介绍深度学习框架的编码实现和参数优化方法。 本课程注重理论学习与实践应用的结合,除了课堂讲授之外,还将通过实践环节引导学生使用深度学习平台或工具,让学生通过实际应用来加深对理论的理解。本年度课程视频合集可在B站查看(点击查看视频合集)。


§ 课程目的与任务:

本课程的目的是使计算机科学与技术以及其他理工科专业硕士生了解和掌握深度学习领域的基础理论和方法,了解深度学习理论与技术的发展脉络和关键知识体系的构成,了解深度学习理论与实践相互依存与促进的重要性。从科学的角度,了解深度学习所涉及的理论体系、数学基础、模型算法等。从工程的角度,了解深度学习在不同的领域所起到的重要推动作用。 * 本课程的任务是学习深度学习的概念、理论和经典模型,并能够进行实践操作。课程采用讲授与上机实验相结合的形式,要求研究生通过本课程的学习,掌握和了解深度学习的概念、理论与经典算法,并可以使用深度学习模型完成一系列相关任务。

§ 理论课教学内容:

第1讲:绪论。本讲主要进行课程简介、人工智能概述、机器学习概述、神经网络概述、深度学习概述等内容介绍。 [PDF] [视频回放] * 第2讲:基础知识。本讲主要介绍机器学习与深度学习的基本概念、相关数学(线性代数、微积分、概率与统计)基础、常见线性模型等。 [PDF] [视频回放] * 第3讲:深度学习框架简介及PyTorch入门。本讲主要介绍开源深度学习框架概述、开源框架核心组件、主流开源框架介绍、TensorFlow与PyTorch的比较、PyTorch入门等。 [PDF] [视频回放] * 第4讲:深度前馈网络。本讲主要介绍人工神经网络概念、神经网络结构、前馈神经网络结构、反向传播算法、自动梯度计算、神经网络参数优化的主要问题等。 [PDF] [视频回放] * 第5讲:深度模型优化与正则化。本讲主要介绍网络优化概念、小排量梯度下降、学习率与梯度优化、参数初始化与数据预处理、逐层归一化、超参数优化、过拟合与正则化等。 [PDF] [视频回放] * 第6讲:卷积神经网络I。本讲主要介绍卷积运算基础、卷积的动机、池化操作、卷积神经网络结构等。 [PDF] [视频回放] * 第7讲:卷积神经网络II。本讲主要介绍卷积神经网络参数学习、其他卷积方式(转置、空洞)、典型卷积神经网络简介(LeNet、AlexNet、Inception、残差网络)等。 [PDF] [视频回放] * 第8讲:循环神经网络I。本讲主要介绍网络记忆能力、循环神经网络结构、随时间反向传播(BPTT)算法、双向循环神经网络等。 [PDF] [视频回放] * 第9讲:循环神经网络II。本讲主要介绍长程依赖问题、长短期记忆网络(LSTM)、门控循环神经网络(GRU)、深层循环神经网络等。 [PDF] [视频回放] * 第10讲:无监督深度模型。本讲主要介绍Hopfield神经网络、玻尔兹曼机、受限玻尔兹曼机、深度玻尔兹曼机、深度信念网络、自编码器、自编码器变种及预训练等。 [PDF] [视频回放] * 第11讲:深度学习前沿与局限。本讲主要介绍注意力机制简介、深度生成模型简介、深度强化学习简介、图神经网络简介、深度学习局限、深度学习趋势等。 [PDF] [视频回放] * 第12讲:深度学习应用。本讲由华为高级工程师王聪做题为《AI框架的发展趋势以及MindSpore的实践》的讲座。 [视频回放]

地址:

https://rmcong.github.io/proj_deep_learning_ProfessionalCourse.html

成为VIP会员查看完整内容
56

无人机技术的快速发展已经将蜂群机器人技术从科幻小说领域转变为现实。今天,学术和军事机构正在研究如何将现有的无人机技术发展成一个蜂群。问题是,在未来十年中,什么是技术上可行的,指挥官如何在战场上使用这种技术?通过整合现有的无人机技术,就有可能开发出一种由数百架无人机组成的蜂群武器,这些无人机利用突发行为整合它们的行动。通过利用蜂群通过机动迅速集中的能力,就有可能同时对数百个点进行大规模打击。

这提供的优势是能够进行约翰-沃顿上校定义的并行攻击,且规模空前。为了论证这一点,本文将首先通过回顾现有的研究和文献,分析未来十年在技术上的可行性。接下来,这项研究工作将开发一个使用并行攻击概念的蜂群武器概念。然后,本文将在计算机模拟中展示这项研究工作设计的蜂群智能算法。本文将表明,在未来十年内,开发一种能够进行并行攻击的蜂群武器是可行的。通过在其他相同的武器中加入蜂群智能,蜂群算法使这些武器更加高效和致命。这项研究工作的结果可以为蜂群武器的多种新的使用概念奠定基础,包括蜂群突破、蜂群区域防御、蜂群并行攻击和蜂群在有争议环境中的广域侦察

引言

在过去的五年里,人工智能研究出现了爆炸性增长,而蜂群机器人技术已经上升为其最有前途的领域之一,学术和军事机构在实验室内外演示了无人机群。在去年,美国和中国都展示了由一百多架无人机组成的蜂群,与此同时,中国和俄罗斯都提出他们将把无人机武器化,用于攻击。2017年,中国还发布了国家人工智能发展计划,将蜂群智能作为一项优先发展工作,力争在2020年之前实现可操作的蜂群智能算法。每个国家都认为蜂群技术将对战场产生颠覆性影响;要真正理解这项新技术带来的能力,必须将科幻小说与现实分开。在一个资源有限的时代,军事领导人应该问的问题是,蜂群武器能提供什么能力,更重要的是,这种能力是不是已经存在了。要理解这个概念,你必须超越蜂群武器的数量优势或其压倒敌人先进武器系统的能力。蜂群武器提供的不仅仅是数量上的优势,它们代表了一个相互关联的武器系统,能够反应性地适应环境和动态的敌人。

无人机技术已经成熟到在未来十年内采用蜂群武器来获得战场上的作战优势在技术上是可行的。为了说明在未来十年内技术上的可行性,本文将首先回顾现有文献,以确定研究人员在实验室外已经展示了哪些技术。使用这种方法,它将表明,拥有100个智能体的较小蜂群武器所需的硬件今天已经可以实现,在未来十年,这种技术将扩展到多达1000个无人机的蜂群将成为可能。接下来,它将使用战争理论来介绍蜂群武器的使用概念,而不仅仅是数量上的优势。最后,它将把这两者联系起来,通过展示一个使用计算机模拟来实现这一就业概念的蜂群智能算法。这种模拟将使我们能够理解和分析蜂群武器使用本文提出的应用概念可能产生的影响。这个软件还将促进对人类-蜂群组队的优势和劣势的分析。通过将现有的硬件与战争理论和应用概念联系起来,本文表明,蜂群武器可以成为一种极具颠覆性的技术。通过对蜂群武器如何利用蜂群智能算法实现适应性行为形成共识,它有助于启动这一对话。

蜂群智能行为是一种自然发生的现象,几个世纪以来,它提高了数百种不同动物物种的生存机会。你可以在鸟群、鱼群、蚂蚁群、蜜蜂群以及其他数百个物种中看到蜂群的概念。蜂群智能算法是在科学家试图研究、理解和复制这些行为时出现的。计算机科学家和生物学家了解到,在每一种情况下,动物们都在以某种方式进行交流,没有领导者,而且蜂群中的每个代理都遵循一套规则。通过尝试复制这种行为,科学家们发现,每个蜂群都在优化行为,以最大限度地提高蜂群的整体生存能力。

许多人用来描述蜂群的一个常见例子是一群椋鸟,如图1所示。虽然它们的同步飞行令人印象深刻,但在这个鸟群中发生的事情更令人印象深刻。鸟群正在实施一个复杂的问题解决过程,优化鸟群的行为以寻找食物和避免威胁。当一只鸟检测到威胁时,整个鸟群就会做出反应,避开该威胁。当它们探测到食物或落脚点时,整个鸟群都会跟上。蜂群在没有领导者的情况下完成了所有这些工作,它使用的是一个局部的、分散的通信网络,每只鸟只与他的邻居进行通信。蜂群是一种适应,它优化了蜂群分散和搜索大片区域的能力,同时仍然允许蜂群在一个代理人发现食物或威胁时迅速集中。这种分散和集中的能力将在后面讨论蜂群通过脉动进行机动的能力时变得至关重要。

图1. 一群椋鸟。珍妮弗-史密斯,"电群",《每日邮报》,2013年11月,2017年9月12日访问

科学家们将这种行为描述为蜂群智能,即一群智能体在决策中使用分散和自组织行为来适应环境变化和解决问题。几十年来,研究人员从这些自然发生的蜂群中获得灵感,开发了蜂群智能算法,如蚁群、蜂巢或粒子群优化算法。蜂群智能算法有成千上万种不同的变化,这将超出本文的范围,但所有这些算法的共同点是,每个算法都有一个代理群,使用本地规则集和分散的通信网络来适应环境变化。今天,蜂群工程已经开始整合多种算法并修改规则集以解决新问题。例如,后面介绍的蜂群智能算法就是对粒子群优化的修改。因此,蜂群工程可以开发新的更复杂的蜂群行为。这种设计行为的能力对于后面讨论战争理论和蜂群武器的使用概念也将是很重要的。

今天,无人机技术的成本降低,使这些蜂群智能算法能够过渡到现实世界。中国和美国都已经展示了他们操作一百架无人机群的能力。例如,在2016年,美国战略能力办公室展示了从F-18飞机的飞行中发射的103架无人机群。现在,同一个小组正在开发一个1000架无人机群。本文将重点讨论蜂群的武器化。由于该技术刚刚出现,研究人员对蜂群武器的论述非常少。这也是一个复杂的、有争议的话题,但却是一个重要的话题,因为这些武器有可能大大塑造战场的优势或劣势。到目前为止,作者们所写的关于蜂群武器的文章主要集中在蜂群的数量优势或压倒先进武器系统的能力上。尽管蜂群武器确实可以提供这种能力,但这只是触及了其真正潜力的表面。蜂群武器对敌人动态行动的实时反应能力使蜂群能够迅速改变状态和行为。有了这一点,你可以设计蜂群的行为,使之与军事理论和战争原则相一致。通过设计行为,你可以创造出一种蜂群武器,它能够在搜索目标时保持分散状态,然后根据敌人的行为迅速集中到一个、两个、三个或数百个目标上(图2)。在联合作战原则中,这种脉冲能力整合了机动性和质量原则,以便在深度和广度上攻击敌人。下面将论证这一概念是可行的,并可能在未来十年内对战场产生颠覆性影响。

图2. 蜂群武器。由作者创建。

方法论

要使蜂群武器在未来十年内为战场提供作战优势,必须在技术上的可行性和提供作战优势的使用概念之间建立联系。为了建立这种联系,下面的章节将回答三个子问题。

首先,在未来十年,蜂群武器在技术上是可行的吗?为了将科幻小说与现实区分开来,第1节将首先确定蜂群武器在技术上是否可行,以及它们可以提供哪些能力。为了回答这个问题,本文将审视今天的可能性,并推测十年内的可能性。所用的时间线是十年,因为它涉及到更多的近期能力和威胁。它还可以更准确地预测蜂群技术的可用性及其影响。对于这项研究工作来说,要考虑未来十年内技术上可行的东西,它必须是一种已证明的能力。因此,本分析没有考虑理论技术。第一部分的产品将是一个蜂群武器的能力表,这些能力在今天或十年内是可行的。

第二个问题是军队应该如何利用蜂群武器的概念来获得战场上的作战优势?为了回答这个问题,本分析将从军事和战争理论入手,以确定军队如何利用蜂群武器来发挥其优势。尽管蜂群武器有成千上万种用途,但本文将以军事理论为基础,提出蜂群武器的概念。第2节,将通过介绍建立在军事理论基础上的就业概念来回答这个问题。它将利用该军事理论来论证蜂群武器提供了一种目前尚不存在的能力。

最后一个问题是,现有技术是否能够提供第2节所述的能力,以及这种能力是否会带来作战优势?为了回答这个问题,这项研究工作将开发一种蜂群智能算法,利用蜂群技术实现这一军事理论,在十年的时间框架内是可行的。本节将通过计算机模拟来分析这种蜂群智能算法提供所需能力的能力(图3)。蜂群中的每个代理将实施蜂群智能算法来攻击这个敌方系统,目标是在120分钟内尽可能多地找到并摧毁200个分散的目标。为了分析结果,这项研究工作将使用模拟技术来比较没有蜂群的1000个智能体的质量和有蜂群的800个智能体的质量。如果其中任何一个能够找到、固定并摧毁超过50%的指定目标,那么根据陆军理论,本分析将认为敌方系统不具备作战能力或作战无效。使用这种方法,本文将比较每一个,以确定蜂群武器是否能够在未来十年内提供这些能力。

图3. 蜂群武器兵棋推演截图。肖恩-威廉姆斯,用于模拟系统攻击的蜂群武器战争游戏模拟软件,Java,2017年

成为VIP会员查看完整内容
46

现在,AI4Science是个热门的话题。如何把机器学习方法用在科学领域是个比较实际的问题. 科学机器学习(SciML)的领域。SciML的中心目标是将现有的科学理解与ML更紧密地结合起来,生成强大的ML算法,这些算法由我们的先验知识提供信息。非常值得关注!

机器学习(ML)已经使我们实践科学的方式发生了根本性的转变,许多人现在把从数据中学习作为他们研究的重点。随着我们想要研究的科学问题的复杂性的增加,以及当今科学实验产生的数据量的增加,ML正在帮助自动化、加速和增强传统的工作流程。站在这场革命前沿的是一个被称为科学机器学习(SciML)的领域。SciML的中心目标是将现有的科学理解与ML更紧密地结合起来,生成强大的ML算法,这些算法由我们的先验知识提供信息

目前存在大量将科学原理纳入ML的方法,人们对SciML解决科学中一些最大挑战的期望越来越高。然而,该领域正在蓬勃发展,许多问题仍在出现。一个主要的问题是SciML方法是否可以扩展到更复杂的现实问题。许多SciML研究正处于概念验证阶段,在这个阶段,技术将在简化的、简单的问题上进行验证。然而,了解它们在更复杂的问题上的可扩展性对于它们的广泛应用至关重要。这个问题是本文的中心问题。首先,针对月球科学和地球物理领域的三个复杂的、真实的、特定领域的案例研究设计了多种不同的物理知识机器学习方法,并评估了它们的性能和可扩展性。其次,评估和改进了物理信息神经网络(一种流行的通用SciML方法)求解具有大区域和高频解的微分方程的可扩展性。讨论了这些研究的共同观察结果,并确定了显著的优势和潜在的限制,突出了设计可扩展的SciML技术的重要性。

https://ora.ox.ac.uk/objects/uuid:b790477c-771f-4926-99c6-d2f9d248cb23

导论

机器学习(ML)在科学领域引起了一场革命。传统上,科学研究围绕着理论和实验:一个人提出一个手工制作的和定义良好的理论,然后使用实验数据不断完善它,并分析它以做出新的预测。但今天,许多人都把从数据中学习作为他们研究的重点。在这里,世界的模型是通过ML算法从数据中学习的,现有的理论是不需要的。这种转变的发生有多种原因。首先,ML领域在过去十年中经历了指数级增长,这一激增背后的主要驱动因素通常被归因于深度学习的突破[Goodfellow et al.,2016]。一些重要的发现,如使用更深层次的网络设计和更好的训练算法,以及更强大的计算架构的可用性,已经导致深度学习技术在广泛问题上的性能迅速提高[Dally et al.,2021年]。现代ML算法现在能够学习和解决难以置信的复杂任务,从自动驾驶汽车[Schwarting et al.,2018年]到击败世界级围棋选手[Silver et al.,2018年]。

伴随着这些进步,今天的科学实验产生了越来越多的数据,研究越来越复杂的现象[Baker et al., 2019, Hey et al., 2020]。人类和我们的传统工作流程对所有这些数据进行分析和理论化正在迅速变得不可能,不久之后,科学实验很可能会受到他们从已有数据中提取见解的能力的限制,而不是他们可以收集什么数据[Baker et al., 2019]。鉴于ML可以提供强大的工具,许多研究人员正在转向ML来帮助自动化、加速和增强传统的工作流程。在过去十年中,新的ML算法和数据可用性的结合导致了一些重大的科学进步。例如,ML已经被用于比以往任何时候都更准确地预测蛋白质结构[Jumper et al., 2021],从神经活动合成语音[anummanchipalli et al., 2019],以及改进量子多体系统的模拟[Carleo和Troyer, 2017]。事实上,现代的ML算法现在已经被应用到科学的几乎每一个方面,这个时代的一个决定性研究问题已经变成:“解决问题X,并将ML应用到它上面”,随之而来的是有趣且常常令人兴奋的结果。

然而,尽管有这些进步,但ML,特别是深度学习算法的各种缺点在ML领域已经具体化。例如,尽管它们能够学习高度复杂的现象,但深度神经网络通常被视为“黑箱”,人们缺乏对它们如何表示和推理世界的理解。这种不可解释性是一个关键问题,特别是对于需要对网络预测进行论证的安全关键应用[Gilpin et al.,2019,Castelvecchi, 2016]。此外,关于如何设计适合特定任务的深度学习算法,几乎没有理论指导。深度神经网络架构的选择主要是根据经验进行的,尽管元学习和神经架构搜索领域开始提供更多自动化的方法[Elsken et al.,2019年,Hospedales et al.,2021年]。最后,尽管深度神经网络表达能力很强,但它们受到训练数据的限制,在训练分布之外通常表现不佳。学习在新任务中表现良好的世界可泛化模型是更通用人工智能(AI)系统的一个关键特征,也是ML领域的一个关键突出挑战[Bengio et al.,2021]

当在科学问题中使用ML时,研究人员开始遇到这些限制[Ourmazd, 2020, Forde和Paganini, 2019]。鉴于深度神经网络的泛化能力较差,一个关键问题是它们是否真正“学习”了科学原理。一个好的科学理论被期望能在实验数据之外做出新颖而准确的预测,然而深度神经网络在训练数据之外很难做出准确的预测。即使一个网络可以做出可靠的预测,考虑到它们的不可解释性,从它们中提取任何有意义的科学见解可能是具有挑战性的。另一个主要问题是,许多当前的机器学习工作流完全用学习的模型取代了传统的科学模型。虽然这可能很有用,但这些纯数据驱动的方法“抛弃”了我们大量的先验科学知识。重要的一点是,对于许多问题,有一个现有的理论可以建立,而不是从头开始。**在一个传统上基于明确的理论和实验之间紧密相互作用的领域,一些人认为上述限制使当前的ML方法不可接受。这些担忧促使形成了一个快速发展的新领域,称为科学机器学习(SciML) **[Baker et al., 2019, Karniadakis et al., 2021, Willard et al., 2020, Cuomo et al., 2022, Arridge et al., 2019, Karpatne et al., 2017a]。SciML的目标是将现有的科学知识和ML融合在一起,生成更细微的ML算法,这些算法由我们的先验知识提供信息,如图1.1所示。这一领域的关键论点是,通过这样做,我们将最终获得更强大的科学研究方法。传统方法和ML方法各有优缺点,两者的结合可能比其中一种更有效。例如,在进行数据同化时(例如在气候模型中),可以使用传统物理模型提供先验知识,而ML可用于解释数据依赖性和其他未知物理。

图1.1:科学机器学习(SciML)概述。SciML旨在将ML与科学知识紧密结合,以便为科学研究生成更强大、鲁棒和可解释的ML方法。

人们对这一领域的期望正在迅速增长,目前正在提出和研究大量的方法和许多创新策略,以将科学知识融入ML。这些方法的范围从预期的科学任务(例如模拟、反演和控制方程发现),到不同的方法来合并科学原理(例如通过深度神经网络的架构、其损失函数和混合模型的使用),以及科学原理被强加的程度(例如通过硬约束或软约束)。我们将在第2章中详细回顾这些方法。许多方法使用来自物理学的思想来通知其在SciML的子领域称为物理信息机器学习(PIML)的ML算法[Karniadakis等人,2021]

到目前为止,SciML 取得了一些初步的成功。它帮助我们进行了强大的模拟[Raissi al.,2019],发现了复杂物理系统的控制方程[Kutz和Brunton, 2022],在反演问题中精确地反演基础参数[Arridge等人,2019],并在广泛的领域中无缝地将传统工作流与学习过的组件[Rackauckas等人,2020,Thuerey等人,2021]。尽管有早期的希望,但SciML领域仍处于起步阶段,出现了许多重要的问题,例如;我们应该如何实施科学原则?我们应该如何平衡数据驱动模型的可解释性的缺乏和现有理论的清晰性?是否存在可以跨科学学科应用的总括的SciML技术?SciML能否为ML领域提供新的视角和思路?对于复杂的现实世界问题,SciML技术的扩展性有多好?本文主要研究最后一个问题,具体讨论如下。

在本文中,我们主要采用两种方法来研究上述子问题。首先,针对前3个子问题,使用复杂的、真实的、特定领域的案例研究来考察多种不同的PIML方法的性能和可扩展性。对于每个子问题,我们提出了一个案例研究,提出了一种PIML技术(或各种PIML技术)来解决它,并评估该技术如何扩展到这种设置。其次,针对最后一个子问题,我们专注于单一的通用PIML技术,并评估和改进其可扩展性。前三个子问题分别在本论文的单独一章(分别为第3 ~ 5章)中进行研究,其案例研究均来自月球科学和地球物理学领域。最后一个子问题将在第6章进行研究。最后,我们在第七章中讨论和总结了每一章对我们主要研究问题的影响。

SciML方法谱系。这张图显示了本章中介绍的不同类型的SciML方法对科学知识的“强”程度。注意,科学约束的强度是一个相当模糊的概念;在这个图中,我们将其定义为SciML方法与传统工作流的接近程度。中间的方法同样将ML与传统工作流的某些方面结合起来,例如在循环方法中,将传统迭代求解器与ML模型交织在一起。此外,我们的作业有些主观,所以这个数字只是为了表达总体趋势。

成为VIP会员查看完整内容
50

基于深度学习模型的目标检测讨论了利用深度学习方法进行目标检测和识别的最新进展,这些方法在计算机视觉和图像处理领域取得了巨大成功。它提供了深度学习理论及其在计算机视觉应用的最新发展的系统和系统的概述,说明了它们使用的关键主题,包括对象检测,人脸分析,3D对象识别,和图像检索。这本书提供了理论与实践的丰富结合。它适合对深度学习、计算机视觉等感兴趣的学生、研究人员和从业人员,也可以作为参考书使用。通过对各种深度学习应用的综合比较,帮助对机器学习和微积分有基本了解的读者掌握理论,启发在其他计算机视觉任务中的应用。特点:

  • 深度学习在目标检测中的结构化概述
  • 使用深度神经网络的物体检测的多样化应用集合
  • 强调农业和遥感领域
  • 关于移动目标检测的独家讨论

成为VIP会员查看完整内容
46
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员