1. 摘要

将不同的、异质的、时间变化的部件整合到复杂的自主系统中,同时保证系统级属性,这就能满足达到可靠自主性科学的要求。在安全机器学习或强化学习等课题上已经做了很多工作,以获得对学习型自主系统的性能和安全的保证(包括通过这个项目),这项探索性的研究工作侧重于具有挑战性的步骤:如何在一个有多个学习组件相互作用的多智能体系统中提供可靠自主性。该项目成功地完成了对竞争和合作环境中分布式学习新算法的设计和分析。

2. 简介

许多系统是由一系列相互作用的子系统组成,它们相互作用,或者明确地作为一个团队进行合作,或者以非零和博弈的方式进行竞争。无人驾驶系统是具有这种结构的典型案例。这种系统已被设想用于许多不同的领域,从侦察、搜索和救援、地雷探测和清扫到战术任务。赋予这些系统自主性,不仅可以减少人员伤亡,而且还可以使其成为一支灵活的、具有多种能力的部队,从而取得主导地位。

尽管取得了重大进展,但要实现可靠长期自主性,即允许系统在不确定的操作条件下,在相当长的时间间隔内做出反应,它们必须对环境、子系统动态或配置、甚至目标和操作约束的意外变化做出自主反应,这仍然具有挑战性。传统的基于模型的技术很可能在这一探索中失败,因为在复杂的、不确定的和时间变化的环境中获得良好的模型要求太高了。然而,在智能体团队的分布式控制方面,新的基于学习的策略目前还没有得到充分的发展,其方式可以保证高置信度操作所需的整体安全和性能。

这项探索性的研究工作集中在这方面的两个问题上。第一个问题集中在设计一个低级别的控制器,它能以一种组合的方式保证安全和稳定。考虑一个大规模的系统,其中子系统的动力学是未知的,因此需要用数据驱动的方法来识别子系统,并在局部设计(和更新)控制器,以确保满足稳定性约束。虽然有很多理论可用于模型识别,但如果将使用模型设计的控制器应用于原始系统,几乎没有任何保证。把这个问题看作是纯粹的基于强化学习的控制设计问题,用目前的集中式或分布式强化学习方法是无法扩展的。这里采取的方法是确定面向控制的学习和组合式控制器设计的方法,这样就可以测试和保证全局属性,如稳定性和安全性。在第二个问题中,重点是设计一个更高级别的控制器,以确定探索该地区的最佳轨迹。由于没有环境模型,强化学习是少数可用的方法之一。大多数多智能体和分布式强化学习算法假设所有智能体在每个时间步骤与所有其他智能体分享其当前状态、行动,甚至可能是奖励。然而,考虑到恶劣的通信环境和可能存在的对手,需要分布式强化学习算法,其中智能体只与邻居分享有限的信息,并且任何通信可能被恶意改变。这项研究工作开发了这种新的分布式强化学习算法。

3. 方法、假设和程序

在上述总体范围内,这项研究工作考虑了各种问题背景,如下所述。

3.1 用基于学习的控制确保分布式系统的稳定性和安全性

对于使用学习算法的分布式系统的底层控制,该研究工作考虑了几个方向。主要的想法是将系统理论概念,如耗散性(已被用于大规模系统基于模型的组合控制)与强化学习算法相结合。该研究在不同的方向上发展了这一想法。

其中一个方向是研究如何验证在不确定对抗性环境中运行的大规模网络物理系统的预期属性,如耗散性。这项工作提出了基于学习的方法,以最小的系统动态知识实现验证。为了在大规模模型中实现组合性,该研究将验证过程分布在各个子系统中,这些子系统利用从其近邻获得的有限局部信息。通过一种新的强化学习启发的方法避免了对子系统参数知识的需求,该方法能够分散地评估可用于验证耗散性的适当存储函数。所提出的方法允许在确保耗散性的同时,将学习功能的子系统添加到物理网络中。研究显示了如何使用不同的学习规则来保证不同的属性,如L2-增益稳定性或无损性。最后,这项工作解决了对复杂属性的验证需求。

在子系统开发基于强化学习的控制器,确保整个网络系统的稳定性和鲁棒性,特别是当不同的智能体可能不使用相同的强化学习算法时,这是一个具有多个基于学习组件的可靠自主性的核心问题,但在很大程度上仍然是开放的。这项工作考虑了当强化学习被用于网络动态系统的分布式控制时保证稳定性的问题。具体来说,考虑一个由许多子系统组成的大规模系统,这些子系统通过它们的输入和输出耦合在一起,例如一个微电网网络。每个子系统根据子系统的状态、输入和输出信息设计一个本地控制器。特别是,研究假设控制器是使用强化学习算法实现的,因为子系统的动态可能是未知的。然而,值得注意的是,不同的控制器有可能使用不同的强化学习算法。这就留下了一个开放性的研究问题,即如何设计能保证整个系统仍然稳定的控制器?

研究工作通过设计分布式控制器来解决这个问题,以稳定一类网络系统,其中每个子系统都是耗散的,并设计一个基于强化学习的局部控制器,以最大化单个累积奖励函数。所开发的解决方案对每个子系统的局部控制器执行耗散性条件,以保证整个网络系统的稳定性。所提出的方法在一个直流微电网的例子中得到了说明;其目的是利用每个发电单元的本地分布式控制器来维持网络的电压稳定性。

这项工作的主要贡献是,当各个子系统利用强化学习来设计自己的控制器时,采用分布式方法来确保具有耗散性子系统的网络系统的稳定性。除了研究重点关注的特定稳定问题外,将耗散性(和其他输入输出)规范整合到基于强化学习的控制中是非常有用的,因为它允许将经典的耗散性理论中的各种工具整合到基于强化学习的控制设计中。所提出的算法保证了稳定性,而不考虑在每个子系统中使用的强化学习算法的选择。特别是,这些结果对每个子系统使用的异质强化学习算法也是成立的。应该指出的是,与大多数现有的多智能体强化学习文献相比,所提出的方法只需要来自相邻子系统的输出来学习每个子系统的控制策略。换句话说,为了保证稳定性,不需要关于其他子系统的状态、奖励或政策的信息。

虽然上述设置是无模型学习,但研究小组也考虑了基于模型的学习设置,其方向是用基于学习的控制器设计保证系统的稳定性。在基于模型的学习中,所学的模型最好能保留系统的结构特性,以方便控制设计或提供性能、稳定性或安全保证。该方法考虑了一个未知的非线性系统拥有这样的结构属性--被动性,它可以被用来确保学习到的控制器的稳健性。该研究开发了一种算法,从时域输入-输出数据中学习该非线性系统的无源线性模型。该算法首先使用任何标准的系统识别技术学习该系统的近似线性模型。然后,该算法通过扰动线性模型的系统矩阵来强制执行被动性,同时确保扰动的模型紧密接近非线性系统的输入-输出行为。最后,该算法得出了扰动大小和区域半径之间的权衡,其中线性模型的被动性保证了未知非线性系统的局部被动性。当使用通过学习算法学习的模型设计控制器时,这一结果可用于确保闭环系统的稳定性。

一旦稳定性得到保证,性能就可以被优化。针对系统模型未知的情况,研究了具有部分嵌套信息结构的分散状态反馈线性二次方控制的控制策略设计问题。提出了一个基于模型的学习解决方案,它包括两个步骤。首先,利用最小二乘法估计,从有限长度的单一系统轨迹中估计未知系统模型。接下来,基于估计的系统模型,设计了一个满足所需信息结构的控制策略。结果表明,控制策略与最佳分散控制策略(利用系统模型的准确知识设计)之间的次优差距与系统模型的估计误差成线性比例。利用这一结果,为学习具有部分嵌套信息结构的线性二次控制问题的分散控制器提供了一个端到端的样本复杂性结果。

3.2 有对手存在时的强化学习

基于学习的可靠自主性的一个重要组成部分是开发一种廉价的、自动化的方法,可以回答 "如何保证安全关键系统在故障或对抗性攻击下的弹性运行?" 确保安全关键型网络物理系统即使在故障或对抗性攻击下也能继续满足正确性和安全规范是非常具有挑战性的,特别是在存在设计者不知道其准确模型的遗留组件的情况下。研究的一个主要方向是考虑这种设置中存在的对抗性智能体。

多智能体强化学习是基于各智能体之间的合作。智能体寻求使效用之和最大化的政策,所有智能体都要遵循规定的算法。研究的第一个方向是表明经典的多智能体强化学习算法对行为不端的智能体是脆弱的。最近,文献中提出了许多合作的分布式多智能体强化学习算法。研究了对抗性攻击对一个采用基于共识的多智能体强化学习算法的网络的影响。研究表明,一个对抗性智能体可以说服网络中的所有其他智能体执行优化它所希望的目标策略。在这个意义上,标准的基于共识的多智能体强化学习算法对攻击是脆弱的。这揭示了设计新的有弹性的多智能体强化学习算法以可靠自主性的关键需求。

鉴于目前多智能体强化学习算法的这种脆弱性,我们设计了一种稳健的多智能体强化学习算法。我们考虑了一个完全分散的网络,其中每个智能体收到一个本地奖励并观察全局状态和行动。提出了一种弹性的基于共识的行为者批评算法,每个行为者估计团队平均奖励和价值函数,并将相关的参数向量传达给其近邻。研究表明,在存在拜占庭智能体(其估计和通信策略完全是任意的)的情况下,合作智能体的估计值以1的概率收敛到一个有界的共识值,条件是每个合作智能体的邻域中最多有H个拜占庭智能体,并且网络是(2H+1)健壮的。此外,已经证明,在假设对抗性智能体的政策渐进地成为静止的情况下,合作智能体的政策以1的概率收敛到其团队平均目标函数的局部最大化附近。

目前的安全设计系统工程技术并没有为设计者提供一种端到端的方法,以通过识别系统动态和更新控制策略来应对新发现的故障、攻击或其他变化(如系统升级),为安全关键系统提供实时保证。我们提出了一种新的方法,以及一个集成的软件框架,以保证具有未知动态的安全关键系统的弹性运行。建议的框架由三个主要部分组成。运行时监控器根据以信号时态逻辑公式表示的正确性规范,对系统行为进行即时评估。模型合成器包含一个稀疏识别方法,用于持续更新工厂模型和控制策略以适应系统或环境的任何变化。决策和控制模块设计一个控制器,以确保在运行时满足正确性规范。为了评估,建议的框架被应用于确保两个案例研究的弹性操作。

3.3 互动的智能体学习

如果智能体不合作,它们之间的互动可以考虑以游戏的形式进行。智能体应该遵循的策略(例如,在纳什均衡背景中)现在可以通过合适的学习算法来学习。这项工作广泛地考虑了这样一种背景。

一个研究方向是以元学习框架的形式来研究适应性玩家之间的游戏。一个认知能力增强的智能体被赋予了一种结构,使他们能够识别对手在游戏中的学习方式。这是通过在线调整的近似器实现的,这些近似器只利用从环境中观察到的行动。研究表明,对对手效用的了解使近似权重渐进收敛。然后,该框架通过时间的反向传播进行了扩展,这样就不需要对效用的了解,并显示了误差向残差集的收敛。最后,玩家在一分钱匹配游戏中的模拟学习证明了这种方法的有效性。

一旦确定了对手的学习算法,就可以利用这些信息来进一步获得游戏中的效用。虚构游戏是一种流行的学习算法,其中玩家利用玩家的行动历史和对自己报酬矩阵的了解,可以在游戏的某些条件下收敛到纳什均衡。我们考虑了一个能够获得整个游戏报酬矩阵的智能玩家的存在。结果表明,通过不遵守虚构的游戏,这样的玩家可以获得比纳什均衡更好的报酬。这一结果既可以看作是虚构博弈算法对战略智能型棋手的脆弱性,也表明棋手不应抛弃他们可能拥有的额外信息,正如经典的虚构博弈所建议的。这一研究路径的主要结果是,战略智能体在竞争环境中使用的学习算法本身可以被对手利用来降低性能。

另一个研究方向是考虑串通和激励的可能性。分布式系统中的许多场景需要系统主管或操作员激励自利的智能体,使其付出昂贵的努力,做出与操作员的目标一致的决定。例如,在参与式传感中,一个系统操作者需要许多自主传感器进行测量,以便对一个全球数量进行估计。操作员不能直接观察每个传感智能体的努力(可能是出于隐私原因),而且智能体可能不会直接从操作员的目标中受益,因此需要根据噪声输出进行补偿。这项研究考虑了需要通过学习算法来设计补偿或激励的情况。具体来说,这项工作研究了这样一种设置,即委托人激励多个不同类型的智能体,这些智能体可以相互勾结以获取租金。委托人不能直接观察所付出的努力,而只能观察任务的结果,而任务的结果是努力的噪声函数。每个智能体的类型影响着努力成本和任务产出。对于智能体在其支付中是耦合的双头垄断,研究表明,如果委托人和智能体的互动次数有限,即使委托人知道智能体的类型,智能体也可以通过串通获得租金。然而,如果委托人和智能体的互动次数是无限的,委托人可以通过一个合适的基于学习的合同来抑制智能体的串通。

4. 结果和讨论

这项研究的技术成果在季度报告和出版物[SAG20, KFVG20, FKG21, KVGA21, NG21, FLLG21, KSS+21, YZG21, VKGV21, AVG22]中进行了总结。下面将讨论所获得的结果及其对第3节中提到的问题设置的意义。

4.1 设计基于学习的分布式控制器算法以保证稳定性

对于由多个相互作用的子系统组成的系统,即使在模型已知的情况下,保证稳定性、性能或安全性的控制设计也是一个困难的问题。一些系统理论属性,如耗散性,已被证明对这个问题很有用;然而,传统上保证这些属性的验证和控制器设计都是假设对模型有准确的了解。这项研究的首要贡献是设计基于学习的分布式控制器算法,该算法可以与耗散性和类似属性相结合,以保证稳定性。

在[KVGA21]中,大型系统被建模为线性时间不变的子系统的级联互连。首先,得出了一些可能具有独立意义的系统理论结果。在L2-增益稳定性定理的基础上,得出了保证系统稳定性的条件,然后对这些条件进行处理,通过分散的对应物来表达集中的条件,其中子系统的属性可以单独考虑。所考虑的强化学习算法是Q-learning。利用Q-learning和耗散性条件之间的联系,以无模型的方式重述了L2增益所需的属性。这是一个非常有趣的结果,因为基于学习的函数近似现在可以用来验证各个子系统的属性以及它们与邻居的耦合,以保证原始系统的稳定性。在进行集中分析时,L2增益条件可以放宽到更普遍的被动性条件,以扩大可以考虑的系统范围。这项工作强调了如何利用动态系统的耗散性特性来验证稳定性,即使是用无模型的强化学习算法也能做到。

在[KSS+21]中,研究从验证耗散性(以及稳定性)到设计保证子系统耗散性的控制器,这反过来又导致了整个系统的稳定性。具体来说,当强化学习被用于网络动态系统的分布式控制时,保证稳定性的问题得到了考虑。考虑一个由许多子系统组成的大规模系统,这些子系统通过它们的输入和输出耦合在一起,例如一个微电网网络。每个子系统根据子系统状态、输入和输出的信息,使用强化算法设计一个本地控制器,因为子系统的动态可能是未知的。然而,值得注意的是,不同的控制器可能会使用不同的强化算法。如何设计能保证整个系统仍然稳定的控制器?这里至少有两个挑战。首先,控制策略应该是分布式的。虽然存在大量关于多智能体系统的强化学习技术的文献,但使用这种技术的分布式控制策略提供稳定性、安全性和稳健性等保证的文献仍然很少。考虑到用强化控制器保证稳定性和鲁棒性问题的作品主要局限于基于模型的强化学习和单智能体系统的线性二次调节器设计等情况。其次,大多数关于多智能体强化学习的现有文献考虑的是所有子系统执行相同算法的情况,并进一步分享信息,如全局状态或与其他子系统的奖励。在子系统中开发基于学习的控制器,以确保整个网络系统的稳定性和稳健性,特别是当不同的智能体可能不使用相同的强化学习算法时,这在很大程度上仍然是一个开放的问题。

这项研究开发了一种基于强化学习的分布式控制设计方法,利用单个子系统的耗散性特性来保证整个网络系统的稳定性。所提出的方法是使用控制障碍函数来描述在每个子系统上执行耗散性条件的控制器集合。这种方法对强化学习算法学到的控制输入施加最小的能量扰动,将其投射到这个集合中的一个输入。这些结果共同保证了整个网络系统的稳定性,即使子系统利用潜在的异质强化学习算法来设计其本地控制器。

据研究小组所知,这是第一个在各个子系统利用强化学习来设计自己的控制器时,确保具有耗散子系统的网络系统稳定性的分布式方法。除了研究重点关注的特定稳定问题外,将耗散性(和其他输入输出)规范整合到基于学习的控制中是非常有用的,因为它允许将经典耗散性理论中的广泛工具整合到基于学习的控制设计中。所提出的算法保证了稳定性,而不考虑在每个子系统中使用的学习算法的选择。此外,建议的方法只需要来自相邻子系统的输出来学习每个子系统的控制策略。换句话说,为了保证稳定性,不需要关于其他子系统的状态、奖励或策略的信息。

在[SAG20]中,该项目考虑了强化学习算法首先学习系统模型时的补充问题。如上所示,系统模型中的耗散性可以用来保证稳定性。因此,该问题简化为以下内容。能否识别出一个耗散性的系统模型,并进一步使所学模型的耗散性水平为真实未知系统的耗散性水平提供一些最坏情况的保证?

使用给定的时域输入-输出数据,解决了识别未知耗散非线性动力系统的耗散线性模型的问题。首先,该方法使用标准的系统识别技术学习了系统的近似线性模型,被称为基线模型。接下来,这个基线线性模型的系统矩阵被扰动,以强制执行二次耗散性。研究表明,只要基线线性模型在输入输出意义上接近非线性系统的动态,就可以选择这种扰动来确保耗散性线性近似的输入输出行为接近原始非线性系统的行为。此外,还提供了一个分析条件,将扰动的大小与非线性系统的局部二次耗散特性的半径联系起来,在这个半径内,耗散线性模型可以保证非线性系统的局部二次耗散性。这种关系正式确定了较大的扰动会导致较差的近似的直觉;换句话说,非线性系统的局部耗散性半径随着扰动大小的增加而减少。因此,上面提出的问题就完全解决了。虽然所提出的方法是离线的,但在在线环境下,通常已经有了一个基线模型,扩展扰动方法来快速识别耗散模型是很有希望的。

在[YZG21]中,研究人员迈出了向性能保证迈进的第一步。众所周知,分布式控制器的优化设计是一个不同的问题,即使模型是完全已知的。对于基于学习的控制器设计,该项目因此必须将方法限制在特定的信息结构和动力学上。

因此,该研究项目考虑了一个具有部分嵌套信息结构的分散的无限期状态反馈线性二次调节器控制问题,并假设控制器无法获得系统模型。采用了基于模型的学习方法,首先确定系统模型,然后用来设计满足规定信息约束的控制策略。使用这种方法,提供了一个端到端的样本复杂性结果,它将用于估计系统模型的数据样本数量与控制策略的性能联系起来。控制策略的性能由控制策略的无限期成本和部分嵌套信息结构的最优控制策略之间的差距来表征,当系统模型是先验的。令人惊讶的是,尽管存在信息约束,而且最优控制器是一个线性动态控制器,但样本复杂度结果与没有任何信息约束的学习集中控制设计相匹配。

4.2 基于学习的控制器中存在的对手和故障

研究的第二个大方向是在使用基于学习的控制器时考虑对手和故障的存在。这是一个重要的方向,因为在多智能体系统中,不存在战略智能体是一个非常有力的假设,同时也因为这种控制器可能被用于安全关键系统,在那里,故障的存在可能是灾难性的。

研究从[FKG21]开始,表明文献中提出的标准多智能体强化学习算法对于哪怕是一个战略智能体的存在都是脆弱的。具体来说,该研究考虑了一种基于共识的多智能体强化学习算法,其目标函数中的奖励被折现。所考虑的攻击与强化学习中通常研究的数据中毒攻击不同,后者试图了解外部智能体改变数据或奖励是否会降低学习算法的性能。相反,该项目考虑的是一个参与智能体本身是恶意的环境。具体来说,所问的问题是一个单一的对抗性智能体是否可以阻止算法的收敛,或者更糟糕的是,导致其他智能体优化它所选择的效用函数。通过设计一个合适的攻击并分析算法在该攻击下的收敛性,已经证明这个问题的答案是肯定的。

这项工作很重要,因为它考虑了有对手的网络,这些对手可以破坏共识和批评者的更新,并将损坏的信号值传送给其邻居。研究表明,当恶意智能体贪婪地试图最大化它自己定义好的目标函数时,网络中所有其他智能体最终也会最大化对手的目标函数。这项研究促使了弹性多智能体强化学习算法的发展。

在[FLLG21]中,提出了这种有弹性的多智能体强化学习算法。考虑的问题是,是否有可能设计一种基于共识的、具有参数化函数近似的分散式学习的多智能体强化学习算法,在合作智能体在受对抗智能体影响的环境中学习最优策略的意义上,该算法对对抗性攻击具有可证明的弹性?重要的是要注意,所考虑的对抗性智能体会影响其他智能体,这是因为他们向他们传达信息,以及通过实施影响环境状态演变的控制政策。在指定的环境中,要实现对控制政策的对抗性攻击的弹性是很困难的,因为它不假设智能体知道彼此的控制政策。目标是设计一种有弹性的算法,引导合作智能体在受对抗性智能体影响的环境中学习接近最优的政策。这仍然是一个独特的挑战,因为对抗性智能体可以对试图降低网络性能的通信通道进行建模攻击。

为分散的行动者-批评者多智能体强化学习引入了一种新的基于投影的弹性共识方法,其中合作智能体估计批评者和团队平均奖励函数,这对接近真实政策梯度至关重要。该算法包括两个重要步骤,共同促进批判者和团队平均奖励函数的高度弹性。在第一步中,接收到的参数被投射到对所有智能体都相同的特征向量中,因为智能体使用相同的基础函数训练线性模型。在第二步中,合作智能体在估计邻居的估计误差空间中进行弹性聚合,并在随机梯度下降更新中应用聚合的估计误差,这确保了本地数据在整个网络中的扩散。同时考虑了线性和非线性函数的近似。所提出的算法大大减少了训练中攻击通信渠道的影响,因此允许合作智能体学习使其团队平均目标函数最大化的政策。

4.3 非合作性智能体

研究考虑的第三个主要设置是当智能体不合作时。如果每个智能体都有不同的效用函数,那么他们的互动可以被认为是一种博弈,纳什均衡等概念更适合于识别智能体的最优政策。由于这些政策通常很难确定,所以已经提出了收敛到这种政策的学习算法。这是分布式学习问题设置的自然环境,是本提案的重点,尽管它不是最初提议工作的一部分。

智能体使用异质学习算法的问题在游戏设置中甚至更为重要。这使得几乎所有在游戏环境中学习的结果都假定智能体之间的学习算法是同质的,这更令人惊讶。在[KFVG20]中,研究人员解决了这个问题。具体来说,制定了一种学习算法,使智能体在玩重复游戏时能够根据其他智能体的游戏内容调整他们的策略。随后,制定了元学习框架--通过识别对手决策机制的调谐算法来获得对学习算法的理解--的智能球员。最后,该算法通过时间的反向传播进行了扩展,从而使决策机制和效用都得到学习。这是一个重要的贡献,因为这个框架也允许在游戏学习中引入认知能力的异质性--就像有界理性一样。

如果智能体之间不合作,他们将忠实地传递信息(如他们的效用)的假设也变得有问题。在[VKGV21]中,考虑了如何消除这一假设。该研究特别关注了n+1个玩家之间互动的虚构游戏,这些玩家重复地进行矩阵阶段游戏。玩家根据他们的信息水平进行分类,其中第一类由一个知道完整游戏的单一智能玩家组成。第二类包含所有剩下的玩家,被称为对手,他们只知道他们自己对不同策略向量的回报。当所有玩家都采用虚构的游戏时,在适当的条件下,玩家会收敛到纳什均衡。然而,聪明的玩家不需要坚持虚构游戏。问题是。聪明的玩家能否通过偏离虚构游戏而获得高于纳什均衡的报酬?此外,如果存在这样的策略概况,当对手实施虚构游戏时,智能型玩家如何执行它?

在这样的背景下,我们确定了能够为智能型玩家提供大于纳什和斯塔克尔伯格均衡报酬的预期报酬的策略。对于游戏中存在2个玩家的情况,所确定的策略对智能玩家来说是最优的。对于n+1个玩家的一般情况,我们提供了一类更容易操作的策略,称为基于收敛的混合策略,这些策略可能是次优的,但可以为智能玩家提供大于纳什和斯塔克尔伯格报酬的预期报酬。还提供了一个线性编程公式,该公式决定了上述策略,而不必在每个时间点上探索所有对手的行动。最后,为智能型玩家确定了一个纯粹的行动轨迹,该轨迹达到了所需的混合策略概率,同时使对手保持在其虚构的游戏中确定的策略。

这是一个有趣的贡献,因为它既可以被看作是虚构博弈算法对战略性智能棋手的脆弱性,也表明棋手不应该抛弃他们可能拥有的额外信息,正如经典的虚构博弈所建议的那样。

5. 结论

这个项目考虑了在一个有多个学习组件相互作用的多智能体系统中可靠自主性。在三个主要方向上设计和分析了新算法:

  • 验证和保证合作分布式控制中稳定性等特性的算法。

  • 在多Agent强化控制中面对对手时保证持续运行的算法。

  • 以及在游戏中学习的算法。

在如何将不同的学习组件整合到复杂的自主系统中,同时保证系统级别的属性方面,获得了新的见解,该项目成功完成。各种新的研究方向已被注意到,以便进行后续研究。

成为VIP会员查看完整内容
39

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《 美国国防部:反小​​型无人机系统战略》38页报告
专知会员服务
241+阅读 · 2022年8月12日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Learning to predict arbitrary quantum processes
Arxiv
0+阅读 · 2022年10月27日
Arxiv
0+阅读 · 2022年10月27日
VIP会员
相关VIP内容
《 美国国防部:反小​​型无人机系统战略》38页报告
专知会员服务
241+阅读 · 2022年8月12日
相关资讯
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员