协作多智能体强化学习中的回报函数设计

2020 年 5 月 4 日 PaperWeekly

©PaperWeekly 原创 · 作者｜李文浩

学校｜华东师范大学博士生

研究方向｜强化学习

下面总结几篇涉及到为使得多智能体强化学习（MARL）算法能够更好地解决协作问题，而对智能体回报函数（reward function）进行设计的近年论文。这些论文主要可分为以下两个方向：1）解决多智能体社会困境（social dilemma）问题；2）解决多智能体探索（exploration）问题。

多智能体社会困境问题

社会困境问题，简单来说，可以如下解释：智能体会因为为了自身短期利益做出的行为而损害集体长期利益。下面介绍几篇解决此问题的工作（按时间排序）。

AAMAS '18

论文标题：Prosocial learning agents solve generalized Stag Hunts better than selfish ones

论文来源：AAMAS '18

论文链接：https://arxiv.org/abs/1709.02865

这篇工作属于比较早期的工作，其解决的问题也都是只有两个智能体的问题。并且这里所用的多智能体算法属于 Independent MARL 方法，即每个智能体都将其他智能体当作环境的一部分。这篇论文不考虑 MARL 中的环境不平稳（non-stationary）问题。

这里所谓的一般雄鹿狩猎（generalized Stag Hunts）问题类似于“囚徒困境”问题，数学定义如下：

▲ 图1：Generalized Stag Hunts Problem

其中，。这样一个问题包含两个纳什均衡（Nash equilibrium），分别是（Hunt，Hunt）以及（Forage）。

我们把前者称为收益主导（payoff dominant），后者称为风险主导（risk dominant）。其次，从可以看出，一旦一个智能体选择 Hunt 另一个智能体选择 Forage，只有选择 Hunt 的智能体会收到惩罚。

下面考虑两个智能体不断地面临上述问题，最后更可能收敛到哪一个纳什均衡呢？假定两个智能体最开始互相认为对方会有的概率选择 Hunt 动作，并且智能体根据这个概率进行最优的决策。

同时，智能体会根据对方做的真实决策，以正确的方向更新这个概率（即如果对方选择 Hunt，那么概率增加；否则减少）。

那么我们可以得出，如果

，那么智能体就会选择 Hunt 动作，据此我们就可以计算出一个关键的置信度。有了这个关键的置信度，我们就可以知道两个智能体更可能收敛到哪一个纳什均衡：

▲ 图2：基于置信度的算法的收敛方向，依赖于初始状态以及整个收益矩阵 payoff matrix。这对于使用 action value 的强化学习方法同样适用。

下面我们考虑如何设计一个算法能够使得两个智能体能够收敛到收益主导的纳什均衡。首先引入以下定义：

一个亲社会的（prosocial）智能体的效用函数（utility）如下：

其中代表智能体的亲社会等级。表示智能体是完全自私的（perfectly selfish），表示智能体是完全亲社会的（fully prosocial），表示智能体是完全无私的（selfness）。

由此，我们可以得到以下定理：

定理：在一个一般的雄鹿狩猎问题中，（Hunt，Hunt）收益主导的纳什均衡的吸引池（basin of attraction）的大小随着双方智能体亲社会级别的增加而增加。存在，若任意一个智能体的，那么上述一般的雄鹿狩猎问题只有一个内部收敛子（interior attractor），即收益主导的纳什均衡（Hunt，Hunt）。

下面给出证明：

引入亲社会效用函数后，如果

那么智能体就会选择 Hunt 动作。经过简单计算，可以得出最小的满足

。通过一般雄鹿狩猎问题的定义可知，三个括号项都为严格正值，因而，的值随着的增大而减小（即吸引池大小随着的增大而增大）。

令可以解得最优为。根据一般雄鹿狩猎问题的定义，有，因而。

将其扩展到大于两个智能体的场景（并不能扩展到一般的多智能体场景，实质上还是两个智能体），我们可以得出以下引理：

对于任意对称游戏，如果该游戏的纯粹均衡（pure equilibria）是对称的，且任意一对策略的子收益矩阵满足一般雄鹿狩猎问题的定义，则上述定理同样成立。

上面引理的定义这里不再详细推导了，感兴趣的读者可以参考原论文。

实验部分，作者在简单环境（matrix game）以及复杂环境（markov game）下，以及两个智能体以及多个智能体条件下，都进行了实验。其中前者使用的是 REINFORCE 算法，后者使用的是 A3C 算法。

▲ 图3：在雄鹿狩猎问题中，采用策略梯度算法训练的自私智能体无法取得很好的性能，但是即使只有一个智能体是亲社会的，最后都能收敛到一个更好的结果，即使不能保证。对于多个智能体，亲社会智能体将与其连接的智能体的收益进行求和或者平均。将雄鹿狩猎问题扩展到多个智能体的环境，有时只有一个亲社会智能体也能够显著提升效果，例如将星状网络的中心智能体变为亲社会智能体；但有时即使有多个亲社会智能体，最终收敛的效果也不尽人意，例如 Weak Link 游戏以及全连接网络的雄鹿狩猎。

▲ 图4：虽然马尔可夫游戏有更复杂的策略空间，但是依旧保留了雄鹿狩猎问题的高层属性，即社会困境。

▲ 图5：风险增加会导致收敛到需要更少协作的纳什均衡，但赋予智能体亲社会性可以提升智能体间的协作能力，从而收敛到更好的结果。亲社会性在 Markov Stag Hunt 和 Harvest 环境中风险极高的情况下影响最弱。

亲社会性同样存在很多局限性。首先，如果游戏（或者游戏中的某些部分）不属于雄鹿狩猎游戏，那么赋予一个智能体亲社会性可能或引入新的次优的纳什均衡。

例如，在社会困境中一个亲社会智能体可能会被其同伴所适应。其次，在一个智能体的动作只会对其余智能体造成微弱影响的环境中，亲社会回报将会增加智能体收益的方差，从而使得强化学习算法收敛速度变慢。

最后，本文假设智能体能够对其余智能体的行为做出最优回应，但是当智能体无法做出最优回应时，做出自私的决策可以有更好的结果。本文关注于亲社会性是因为这是一个只改变智能体回报函数的简单方法。

最后作者提出了如下三个值得思考的问题：

如何在智能体学习的过程中显式地考虑其余智能体的影响，而不是像本文一样独立学习（这个已经有一些工作）？
由于深度强化学习引入函数估计，如何设计一个好的网络结构？
人类的活动中，自身很难收敛到收益主导的纳什均衡，但是引入人工智能体后，可以引导人类群体收敛到更好的结果，如何将本文的结果扩展到人机协同中？
社会困境与更好地协作之间有何联系？

ICLR 2018

论文标题：Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Information

论文来源：ICLR 2018

论文链接：https://arxiv.org/abs/1710.06975

本文考虑的问题是，使用强化学习方法解决只有部分观察（部分观察到环境以及其余智能体的动作）的社会困境。

最简单的社会困境即囚徒困境（Prisoner's Dilemma, PD），两个智能体在两个动作中选择其一，合作或背叛。互相协作双方可以获得最高的收益，但是无论一个智能体选择什么动作，另一个智能体都可以通过背叛得到较高的收益（与雄鹿狩猎问题类似）。

当上述问题变成一个重复问题时，即两个智能体不断面临囚徒困境，目前比较好的策略是“以牙还牙” （tit-for-tat, TFT）。TFT 策略很简单，即复制另一个智能体上一轮的动作，用未来的协作来回馈现在的合作。

TFT策略有以下几个特点：1）易于解释；2）从协作开始；3）如果另一个智能体同样选择协作，则会收到很高的收益；4）可以避免被适应；5）该策略会原谅另一个智能体的背叛行为。

具体看一个例子，假定现在的收益矩阵如下所示：

我们假定智能体使用 TFT 策略，则第一轮它会选择协作动作。下面我们看做不同动作时的情况。如果一直选择合作，那么，

反之，如果其一直选择背叛，那么就会以牙还牙。

而如果中途又选择协作，则接下来也会选择合作，会原谅其背叛行为。如果两个智能体都遵循 TFT 策略，那么最终这个连续的囚徒困境问题最终就会收敛到收益主导的纳什均衡。

TFT 属于条件协同（conditionally cooperative）策略的一种，即使用这种策略的智能体只有当某种特定条件满足时（对于 TFT 来说，这个条件即另一智能体上一个动作选择协同）才会选择协同。

然而 TFT 策略需要对另一智能体的行为具完美的观测，且需要完美地理解另一智能体的行为的未来结果。

如果信息是不完美的，则智能体必须依靠其能够观测到的信息，来预测另外智能体是否协作并由此进行回应。

本文表明，当游戏能够遍历所有状态（ergodic），则观察到的回报能够作为统计量——如果当前总回报（平均回报）超过某一与时间无关的阈值（通过使用强化学习算法进行自我博弈计算），则智能体选择协作，否则不协作。

本文将上述过程称之为结果性条件协作（consequentialist conditional cooperation，CCC）。

本文的实验环境为 Fishery。在 Fishery 游戏中，两个智能体生活在有鱼出现的湖泊的两侧。该游戏智能体只拥有部分观测，因为智能体无法观测到整个湖面发生的情况。鱼随机产卵，从未成熟开始，从一侧游到另一侧并变得成熟。

智能体可以在湖边捉鱼。捕捞任何成熟度鱼类都能获得回报，但成熟的鱼类更有价值。因此，合作策略是指将幼鱼留给另一智能体的策略。但是，存在一种背叛策略，即既捕捉幼鱼也捕捉成熟鱼。

下面我们将协作策略记为，背叛策略记为，并且假定一个纳什均衡策略对满足以下性质：1）对于两个智能体来说，上述背叛策略对在长期来看相比于最优策略获得的收益更低；2）如果某个智能体使用混合策略，即某些时刻采用协作策略，某些时刻采用背叛策略，则有

第二个假设表明，即使智能体只在某些时刻使用背叛策略，也可使得其收益增加（虽然这是建立在损害了集体利益的基础上）。

为了使用 CCC 策略，智能体需要维护一个当前时刻的平均回报。给定一个阈值，智能体在时执行协作策略，否则执行。令表示两个智能体执行的概率，表示智能体自身执行另一智能体执行的概率。

令，其中是一个松弛参数，用以表示智能体的仁慈（leniency）程度。根据以上，我们可以得出如下定理（证明略）：

如果智能体执行 CCC 策略，则有：

1）合作胜利（Cooperation Wins）：如果智能体执行，则有。

2）背叛没有收益（Defecting Doesn’t Pay）：如果智能体执行的策略使得智能体长期收益小于，则有

因此，CCC 策略拥有与 TFT 策略相同的优点，同时，其不需要完全观测。然而，上述做法只能保证长期收益。下面我们来看看如何通过强化学习方法来构建 CCC 策略。首先我们需要训练出协作策略以及背叛策略：

1）自私策略——通过自我博弈，两个智能体的回报函数均为自身的回报函数。这是零和多智能体问题标准的自我博弈流程。通过这种方式训练出的策略记为。

2）亲社会策略——通过自我博弈，两个智能体的回报函数不仅包括自身，同时包括另一智能体。通过这种方式训练的策略记为。

本文使用的强化学习算法基于策略梯度方法，但是不能使用基于状态值函数的方法（例如演员-评论家算法）。例如智能体做了两个不同的策略：“吃掉幼鱼”以及“将幼鱼放去另一边”，只看状态的话这两个状态是一致的（幼鱼消失），因而反而会妨碍强化学习算法收敛。

同时，一般部分观测环境下运行的强化学习算法都会使用 RNN 作为策略网络，但是本文使用的环境 Fishery，由于智能体做决策不需要根据不能观察到的部分（另一边的情况），因而 RNN 是无用的。

为了能够使用 CCC 策略，我们必须计算出 CCC 需要的阈值。计算这个阈值时必须考虑到下述三种情况引入的方差：1）两个智能体的同种策略，由于使用的是函数估计，因而不一定一样（输出层存在随机采样）；2）初始状态的不同在有限时间可能会造成影响；3）回报本身就包含随机性。

注意，下面我们要计算的阈值是针对每个时间步的，而不是整个 episode 都是同一个阈值。具体计算公式如下：

其中代表轮数，代表到时间步为止的累积收益。代表轮实验中收集到的累积回报的分位数。我们可以通过调整超参数以及来一定程度减小方差带来的影响。下面是 CCC 算法的伪代码。

实验一：Fishery

▲ 图6：在 Fishery 环境中，两个智能体住在湖的两侧，不能够相互直接观察到对方的动作。每个时间步可能会有一只鱼在一侧出生，并且往另一侧游动。鱼从幼年状态开始，到达湖的中间部位就会变得成熟。进行自私策略的自我博弈训练会导致智能体尝试吃掉所有的鱼，因而无法得到最优的收益，但反之亲社会的训练可以使得两个智能体学会协作策略。

实验二：乒乓球运动员困境（Pong Players' Dilemma）

由于任何完美观测的游戏都可以被认为是部分观测的（只不过这里的部分是指全部），那么 CCC 同样可以被用来解决完美观测的问题。

▲ 图7：在乒乓球运动员困境中，进行自私策略的自我博弈训练会使得智能体努力去得分，从而收敛到很差的集体利益上。协作者则会尝试去轻柔的击球，从而两方都可以得分并且没有一方会失球。采用 CCC 策略的智能体面临一个协作的智能体时也会协作，同时不容易被背叛者所欺骗。然而，在更加有风险的乒乓球运动员困境中，CCC 的表现无法超过基准算法。

NIPS 2018

论文标题： Inequity aversion improves cooperation in intertemporal social dilemmas

论文来源： NIPS 2018

论文链接： https://arxiv.org/abs/1803.08884

相比于上述两篇工作只能解决 repeated matrix 社会困境问题，这篇工作通过引入不公平厌恶（Inequity aversion [1] ）理论，使得基于此的强化学习算法能够解决复杂的视频游戏，并且是真正的多智能体社会困境问题。

许多不同的研究领域，包括经济学，进化生物学，社会学，心理学和政治哲学，都得出了以下观点：公平规范（fairness norm）能够解决社会困境。在一个众所周知的模型中，通过假定智能体具有不公平厌恶偏好来解决社会困境。

拥有上述偏好的智能体会寻求一个平衡，即自身对个人奖励的渴望，以及保持自己的奖励与他人的奖励之间的偏差尽可能小，之间的平衡。

具有上述偏好的智能体可以通过抵制超越其余智能体的诱惑，或（如果可能的话）通过惩罚和劝阻搭便车（free-riding）行为来解决社会难题。不平等厌恶模型已成功地用于解释各种实验室经济博弈中的人类行为。

对于社会困境问题，如果用收益矩阵（payoff matrix）来表示，只能够表示只有 2 个智能体的情况。一旦智能体数量大于 2，则收益矩阵将变成高维张量，不易于表示以及处理。因而本文使用了另一种表示方式，谢林图（Shelling Diagram [2] ）。

谢林图简单来说，描述了在其余协作者数量固定的情况下，一个智能体选择协作或者背叛后，获得的相对收益。因而谢林图的横坐标是除了某个智能体之外，剩余智能体中选择协作动作的智能体个数；纵坐标则是这个智能体分别选择协作以及背叛，所对应的收益。

我们可以看几个只有两个智能体的社会困境问题（例如上述的雄鹿狩猎，或者囚徒困境等），对应的谢林图。

▲ 图8：Chicken，雄鹿狩猎以及囚徒困境的谢林图表示

接着，我们需要对大于两个智能体的社会困境问题进行一个正式的定义。一个包含个智能体的序列社会困境（sequential social dilemma）是关于一个马尔科夫游戏（Markov game）的一个元组。

这个元组包括两个不相交的策略集合，分别是协作策略集合以及背叛策略集合，并满足下列性质。

考虑一个实例

，其中。这表示个智能体中有个智能体执行协作策略，剩余的则执行背叛策略。对于我们需要关注的智能体，如果其执行的是协作策略，那么把它的收益记为；反之，如果其执行的是背叛策略，那么把它的收益记为。

一个谢林图绘制以及两条曲线。具体来说，谢林图针对的是第个智能体，其展现了在其余个智能体所选择的策略固定的情况下，这个智能体选择协作（则总共有选择协作的智能体）或者选择背叛（则总共还是个智能体）后，其所获得的收益以及，随着的取值不同（），这两种情况就变成了两条曲线（更准确应该是折线，其定义域是自然数）。

当且仅当满足下列条件时才属于序列社会困境：

1. 相比于互相背叛更倾向于互相合作：（上述谢林图中蓝线的终点值大于红线的起点值）；

2. 相比于被背叛者利用更倾向于互相合作：（上述谢林图中蓝线的终点值大于蓝线的起点值）；

3. 要么具有恐惧（fear）属性，要么具有贪婪（greed）属性，要么都有：

恐惧：为了防止被利用更倾向于互相背叛，即对于足够小的有（上述谢林图中靠近原点，红线值大于蓝线值，例如雄鹿狩猎问题、囚徒困境问题）；
贪婪：相比于互相合作更倾向于利用协作者，即对于足够大的有（上述谢林图中靠近终点，红线值大于蓝线值，例如 Chicken 问题）。

所以根据上述定义，上面展示的三个问题都属于智能体数目为 2 的序列社会困境问题。同时，我们还可以定义，一个序列社会困境问题是跨时期的（intertemporal）。跨时期的意思是，在短期内（short-term）选择背叛是最优的。

更正式地来说，对于一个智能体，在不考虑其余智能体策略的情况下，给定一个初始状态，对于所有足够小的，在接下来个时间步能够获得最大收益的策略属于背叛策略。

多智能体社会困境问题可以分为以下两类：

Public goods dilemmas，我称之为生产者困境，即单个智能体为了提供公共资源必须付出成本。
Common dilemmas，我称之为消费者困境，即单个智能体为了自身利益会自私地占有公共资源。

本文分别针对这两类问题设计了两个跨时期的序列社会困境问题，Cleanup 游戏以及 Harvest 游戏。这两个游戏都是部分观测的二维网格游戏。

▲ 图9：游戏截图。A：Cleanup 游戏。B：Harvest 游戏。B 图中同时展示了智能体的局部视野范围，这个范围对于所有游戏来说是相同的。

在 Cleanup 游戏中，群体的目标是从田间收集苹果。每个苹果提供的奖励为。苹果的生长受地理上相互隔离的含水层控制，该含水层提供水和养分。随着时间的流逝，该含水层充满了废物，线性降低了苹果的重生率。如果废物水平足够高，则不能产生任何苹果。

在每个 episode 开始时，环境都会被重置为废物水平刚好超过此饱和点。为了使苹果生长，智能体们必须清除一些废物。在这里，我们存在一个社会困境。

某些智能体需要通过清理含水层为公共利益做出贡献，但是呆在苹果田里将会获得更多的个人回报。这样一来，如果所有智能体都选择背叛，那么没人会得到任何奖励。一个成功的团体必须在搭便车与提供公共资源之间取得平衡。

Harvest 游戏的目标同样是收集苹果。每个苹果提供的奖励。苹果的生长率在整个地图上有所不同，具体取决于未收集的苹果的空间分布：附近的苹果越多，则该地区苹果生长率就越高。如果附近所有的苹果都被收集，那么再也不会有新的苹果长出来。经过个时间步后，episode 结束，此时游戏将重置为初始状态。

这个游戏面临的困境如下。每个人如果只为了自己的短期利益，那么都会选择尽快收集周围的苹果。但是，如果智能体不这样做，则整个团体的长期利益就会提高，尤其是当许多智能体分布在在同一地区时。

但是因为选择背叛策略的智能体越多，永久耗尽当地资源的机会就越大，因此上述情况很难出现。因而为了团队的利益，合作者必须放弃个人利益。

下面我们需要证明这两个游戏确实属于多智能体社交困境问题，否则即使通过设计算法解决了这两个游戏，也无法证明我们的算法能够有效地解决多智能体社交困境问题。这里我们就可以画出这两个游戏的谢林图来进行验证。

然而现在的问题在于，画出谢林图必须要明确定义两个不相交的策略集合，即协作策略集合以及背叛策略集合。

但是对于复杂的马尔可夫游戏，上述策略集合很难定义。因为本文对提出的两个游戏通过实验数据来进行分析。我们可以通过对环境进行一些修改来强行使得智能体学习执行协作策略以及背叛策略。

在 Harvest 游戏中，我们通过修改环境，阻止智能体从低密度地区收集苹果，来使得智能体强制执行协作策略。
在 Cleanup 游戏中，我们通过移除智能体清理废物的能力，来强制智能体执行背叛策略。

我们还通过增加少量的团队回报来鼓励智能体协作。下图是通过实验结果画出的谢林图，通过谢林图，我们可以清楚地看出，这两个游戏都属于社会困境问题。

▲ 图10：生产者困境游戏 Cleanup 以及消费者困境游戏 Harvest 属于社会困境问题。A 图表示 Cleanup 游戏的谢林图；B 图表示 Harvest 游戏的谢林图。绿色的虚线表示智能体选择背叛策略的平均长期收益，而不是谢林图展示的回报。可以看出，选择背叛策略，长期收益会低于即时回报。

设计了两个社会困境游戏之后，下面我们着手解决这两个游戏。像上面讲的一样，我们引入不公平厌恶模型来解决这个问题。不公平厌恶模型最开始提出时只适用于无状态（stateless）游戏，即类似于雄鹿狩猎、囚徒困境等，该模型简单来说就是对智能体的回报函数进行修改，正式定义如下：

不公平厌恶模型的回报函数定义如下。令为个智能体各自的外部回报（环境给予的），则其最终的回报函数为：

其中附加项可以认为是固有回报（intrinsic reward）。参数控制的是智能体对于劣势（disadvantageous）导致的不公平的厌恶程度；对应的，参数控制的是智能体对于优势（advantageous）导致的不公平的厌恶程度。

一些工作表明，。这是因为，人们更不喜欢自己比别人差。本文实验的设定是。下面，我们将上述不公平厌恶模型推广到多智能体情形中：

其中时间平滑回报通过如下方式计算：

上述时间平滑回报的计算类似于资格迹（eligibility traces）的计算方式。

下面就是实验部分了。在展示结果之前，我们特别定义了几个评价指标。不像单智能体强化学习可以仅仅通过累积收益来衡量智能体的性能。

在多智能体系统中，无法只通过一个简单的标量来去追踪整个系统的性能。因而我们提出了不同的社会性结果衡量指标来对群体行为进行总结，同时辅助分析。

考虑一共个智能体，令表示智能体在长度为的 episode 中获得的回报序列，累积收益定义为。下面我们定义

效用度量（Utilitarian metric，）：又被称为集体收益（collective return），定义为。
公平性度量（Equality metric，）：定义为。
可持续性度量（Sustainability metric，）：定义为其中。

最后，对于 Cleanup 游戏，我们定义了一个智能体对于公共资源的贡献度，，其中表示智能体清理的废物的数量。

▲ 图11：优势导致的不公平厌恶在 Cleanup 游戏中能够促进协作。A 图比较了基准算法 A3C 以及使用了优势不公平厌恶模型的算法在集体收益上的性能差异。B 图展示了智能体对于公共资源的贡献度。C 图展示了公平性。D-F 图表明，劣势不公平厌恶模型在 Cleanup 游戏中并不能很好的促进协作。

▲ 图12：不公平厌恶在 Harvest 游戏中能够促进协作。当全部个智能体都使用优势不公平厌恶模型时，相比于基准算法 A3C，在三个社会性结果指标 A-集体收益、B-收集的苹果数、C-可持续性上都只有很小的提升。而劣势不公平厌恶，甚至只有个智能体使用，相比于 A3C ，在指标 D-集体收益、E-收集的苹果数、F-可持续性上都能带来较大的提升。

本文提出的方法，相比于上一篇文章，不需要显式地训练协作策略以及背叛策略，因而能够很容易地扩展到大规模复杂的多智能体环境中。但是，本文提出的方法也具有一些缺陷：

1）我们的背叛智能体很容易被剥削，从实验可以看出需要一个背叛智能体群体才能实现合作；

2）我们的智能体使用结果而不是预测，这在随机性过大的环境中将会存在很严重的问题（这是上一篇文章得到的结论）；

3）从实验可以看出，我们需要手动确定整个团体中使用两种不公平厌恶模型的智能体数目，在具有不对称结果的游戏中这个值更需要小心地确定，因而，在大规模环境中仅仅利用我们提出的方法可能不够，需要一个混合算法。

PMLR 80, 2018

论文标题：Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

论文来源：PMLR 80, 2018

论文链接：https://arxiv.org/abs/1810.08647

这篇文章开始将上述文章中为了解决社会困境问题而提出的修改回报函数的方法中，所引入的附加项看作是强化学习中更常见的固有回报（intrinsic reward），并将社会困境看成是更加一般的协作多智能体强化学习问题，且是更需要通过智能体之间的协作来解决的多智能体强化学习问题。

这篇文章其实很好的回答了第一篇文章最后提出的问题：社会困境与更好地协作之间有何联系？

对于上面几篇工作，作者认为他们都是用的是人工设计的回报函数，带有比较强的先验信息（或归纳偏倚，inductive bias），同时需要获取其余智能体的回报。这些假设使得这些算法无法独立地训练每个智能体。

除了对回报函数进行重新设计，也有些其他方法来解决多智能体强化学习中的协作问题，但一般都是通过中心化训练。虽然通信学习方法也是独立学习，但是最近一些工作表明，即使通过中心化学习，想要学到有意义的通信协议也是十分困难的。

为此，本文提出了一个协作多智能体强化学习算法，通过引入能够反映智能体自身动作对其余智能体的因果影响程度的固有回报，来鼓励智能体协作，并把这种固有回报称之为社会影响固有回报（social influence intrinsic reward）。同时，这种固有回报还能促进通信学习算法习得更有意义的通信协议。

因果影响通过反事实推断来评估。在每个时间步，智能体模拟自己选择不同的、反事实的动作，并评估其对于其余智能体动作的影响。能够使得其余智能体动作产生较大改变的动作，被认为具有较大的影响力并会获得奖励。这种固有回报的构建方式，类似于最大化智能体动作之间的互信息。

本文采用的实验环境与上一篇论文完全一致，所想要解决的也是序列社会困境问题。本文使用 A3C 算法来训练每个智能体，同时采用 LSTM 网络。

具体来说，社会影响固有回报将智能体的即时回报更改为如下形式，。其中表示外部或环境回报，则为因果影响回报。

为了计算一个智能体对于另一个智能体的因果影响，我们假定有两个智能体和。并且智能体的在时间步的策略能够基于智能体的动作，即智能体下一个动作的概率可以表示为。

我们可以对进行干涉，将其替换为一个反事实动作。这个反事实动作被用来计算智能体新的下一个动作的分布，即。

上述过程可以描述为，智能体 反省式地问自己：如果我在时间步 时做出了不同的动作，智能体 的动作将会如何改变呢？

通过采样多个反事实动作，并对对应的不同的智能体的下一个动作的分布进行平均，我们就可以得到智能体的策略的边际分布，即

这种边际策略，可以看作是智能体在不考虑智能体的影响下的策略。这两个分布之间的差异便可以当作智能体对于智能体的因果影响。

因而，智能体的因果影响回报可以通过如下方式计算：

上述回报函数与智能体与动作之间的互信息相关，具体证明如下：

智能体对于智能体的因果影响为：

。其中表示在时间步时所有相关的（LSTM网络的隐含状态）以及。智能体和动作之间的互信息为：

可以看出上式中的 KL 散度项就是我们定义的因果影响。通过从环境中采样个独立的轨迹，其中智能体的动作根据采样，我们可以对上述互信息进行蒙特卡洛估计，

因而，从期望上来看，因果影响回报等价于智能体动作之间的互信息。至于采用因果影响回报训练出的策略，是否完全等价于采用互信息约束训练的策略，则需要看具体的学习算法。不像互信息的定义，即对于和两个智能体是对称的（可以互换），因果影响回报则是有向的因果影响。

我们认为这样的回报函数会简化学习过程，因而其可以更好地处理信用分配（credit assignment）问题：智能体可以更容易地学到它的哪一个动作将会导致更大的影响。

因果影响回报与互信息之间具有联系是十分有意思的，因为在单智能体强化学习领域，有一种经常被使用的固有回报——赋权回报（empowerment），赋权的意思是会给执行的动作与环境的未来状态互信息较大的智能体奖励，即对环境的未来状态赋权。

如果从赋权的角度来解释，因果影响回报则是对其他智能体的动作赋权。

因果影响回报同样可以使用其他散度度量来计算。Lizier & Prokopenko (2010) [3] 提出了局部信息流（local information flow）作为有向因果影响大小的度量方式。这等价于逐点互信息（pointwise mutual information，PMI）,

PMI 度量了的单个动作对于的单个动作的影响。PMI 关于的期望即上面提到的互信息。除此之外我们还测试了杰森-香农散度（Jensen-Shannon Divergence, JSD），实验表明，因果影响回报对于不同的散度度量方式是鲁棒的。

采用社会影响还有另外的优点。我们知道（下述理论来源于 MADDPG），多智能体策略梯度的方差随着环境中智能体数目的增多而增大。社会影响通过引入智能体动作之间的外部依赖关系来减小上述方差。因为智能体策略梯度的条件方差小于或等于边际方差。

注意，对于上述提出的社会影响模型，我们做出了两个假设：1）我们通过中心化训练的方式来计算，因为需要直接访问智能体的策略；2）我们假设影响是单向的，即采用因果影响回报训练的智能体只能影响不采用因果影响回报训练的智能体（影响者集合与被影响者集合是互不相交的，且影响者的数量在的范围内）。

但是后面我们会去掉这两个假设。从下图可以看出，采用因果影响回报是非常有效的。

▲ 图13：与基准算法在集体收益上的性能对比。其中 Visible action baseline 指的是不采用因果影响回报，但是被影响智能体的策略显式地基于影响智能体的动作，即使影响智能体不在被影响智能体的视野范围内。

让我们来更详细地对智能体的行为进行分析。在 Cleanup 游戏中，我们指定了唯一一个采用因果影响回报训练的影响者智能体。不像其余智能体当等待苹果生长时进行随机游走，该影响者智能体仅当其去收集苹果时才运动，其余时刻都保持静止。下面是一个 Cleanup 游戏截图。

▲ 图14：一个影响者具有高影响力的时刻。紫色的影响者智能体发出了绿色苹果出现的信号给黄色被影响者智能体，即使绿色苹果处于黄色被影响者智能体局部视野范围之外。

对于上图的时刻，紫色影响者智能体选择向处于黄色被影响者智能体局部视野之外的绿色苹果移动。

由于紫色影响者智能体只在有苹果的时候才移动，因而黄色被影响者智能体知道必定有苹果存在于自己的局部视野范围之外。这会使得黄色智能体下一个动作的分布，从而使得紫色智能体获得奖励。

在这个案例研究中，紫色影响者智能体学会了使用自己的动作作为一个二元编码，来传递环境中是否存在苹果这个消息。Harvest 游戏中同样有类似的行为。这种基于行为的通信可以与蜜蜂的摇摆舞联系起来。这表明，因果影响回报不仅可以促进协作，还可以促进通信的产生。

为了进一步验证上面得出的结论，即因果影响回报可以促进通信的产生，下面我们使用因果影响回报来训练基于通信学习的多智能体强化学习算法。

具体来说，我们基于 CommNet，在每个时间步，每个智能体发出一个离散的通信信号。这些信号被拼接在一起，形成了一个全局的通信向量。这个全局的通信向量在下一个时间步会作为每个智能体策略的额外输入（除去状态之外）。

具体来说，我们在原始的 A3C LSTM 网络上，额外新加了两个输出头，具体结构如下图所示。由于通信信号是离散的，可以认为在原本的强化学习任务之外，又新引入了一个强化学习任务，消息空间就是动作空间。

▲ 图15：通信模型一共包括两套、四个输出头。一套学习原始任务的策略，一套学习通信策略。其他智能体上一步的通信信息作为 LSTM 网络的额外输入。

原始策略仅仅通过外部回报（或环境回报）来训练，但通信策略则再额外加入因果影响回报，即来训练。这时，我们通过反事实来评估智能体上一步输出的信号，对另一个智能体下一步动作的影响：

▲ 图16：基于通信学习的智能体集体利益对比。Comm baseline 指的是只是用外部回报来训练通信策略的 A3C 算法。从图中可以看出，因果影响回报同样十分有效。

值得注意的是，在 Cleanup 游戏中，训练通信策略时，最优性能对应。这意味着仅使用因果影响回报来训练通信策略是最为有效的。为了进一步分析智能体习得的通信协议，我们引入了三个评价指标：

1. 通信发起者一致性（Speaker consistency）：正则化指标，处于之间，计算的是以及的熵。此指标用以评估一个通信发起者执行特定动作时发出信号的一致性，以及对应的，发出特定信号时执行动作的一致性。具体计算方式如下：

其中是根据动作空间的模计算出的最大熵。我们希望这个值较高。

2. 即时协作性（instantaneous coordination，IC）包括如下两个互信息（MI）指标：

信号/动作 IC：衡量影响者/通信发起者的信号与被影响者/通信接收者的下一步动作之间的互信息；
动作/动作 IC：衡量影响者/通信发起者的动作与被影响者/通信接收者的下一步动作之间的互信息；

为了计算这两个指标，我们对所有轨迹的所有时间步计算上述两个指标，并选取任何两个智能体之间的最大值，从而确定是否存在任何一对智能体之间存在协作。注意这两个指标都是即时的，即只能捕捉到两个智能体在连续两个时间步之内的短期依赖性。

▲ 图17：衡量通信质量的相关指标对比。all 代表指标是根据所有时间步计算的，influencial moments 是指因果影响回报大于平均因果影响回报的时间步。

从上图可以看出，使用了因果影响回报后，通信质量明显提高。这里有一个有意思的现象，我们可以看到只有在 influencial moments 时刻 IC 才比较高。

这显示出了通信的一个基本模式：影响是稀疏的。一个智能体得到的因果影响回报仅仅在大概的时间步大于其平均因果影响回报。

同样我们还观察到：被影响最大的智能体，其获得的外部回报也更高。我们采样了个不同的环境（超参数与随机种子不同），并且对因果影响回报与对应的被影响者智能体的外部回报首先进行了正则化，并进行了相关性分析。

对于 Cleanup 游戏，，对于 Harvest 游戏，。这表明了，为了影响其余智能体，通信发起者发送的信息应该要包含对于被影响者智能体取得外部回报有利的内容。

最后，上述因果影响模型由于需要直接访问其余智能体的策略，因而需要中心化训练。本文引入了 MOA（modeling other agents）方法对其余智能体的策略进行估计，依靠观察到的其余智能体的轨迹进行监督学习，具体网络结构如下：

▲ 图18：MOA 模型同时学习原始任务的策略，以及一个预测其余智能体下一步动作的监督模型。这个监督模型用以去中心地计算因果影响回报。

学习意味着同时学习其余智能体的隐含状态以及行为，还有环境的转移函数。如果这个模型学习得不准确，那么将会给计算出来的因果影响回报引入噪声。

因而，只有到影响者智能体想要影响的被影响者智能体在局部视野范围之内时，我们才给影响者智能体奖励。虽然这会导致影响者智能体总会靠近被影响者智能体这个副作用，但是在社会学领域这个副作用被认为是有意义的。

▲ 图19：MOA 模型的集体利益。MOA 基准算法指的是不使用 MOA 模型中监督模型的输出用以计算因果影响回报，而是把监督模型的训练当作一个辅助任务，更好地学习共享的卷积特征抽取层。这相当于 MOA 基准算法只有外部回报。从图中可以看出，MOA 模型是有效的。

最后，给出其与上一篇文章——不公平厌恶模型——的对比结果：

▲ 图20：数值表示每个模型最后50个时间步智能体的集体收益。我们可以看出社会影响模型的性能显著优于不公平厌恶模型。这是很值得思考的，因为不公平厌恶模型可以观察到所有智能体的回报。但是社会影响模型没有这个假设，却达到了更好的效果。

一个有趣的方向是，如果我们将多智能体网络视为单个智能体，则可以将影响力用作调节器，以鼓励网络的不同模块集成来自其他网络的信息。例如，防止分层强化学习算法崩溃。

参考链接

[1] https://en.wikipedia.org/wiki/Inequity_aversion

[2] http://www.uvm.edu/pdodds/files/papers/others/1973/schelling1973a.pdf

[3] https://arxiv.org/abs/0812.4373

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

协作多智能体强化学习中的回报函数设计

相关内容