《面向多计算系统的人工智能自主决策》330页

随着人工智能（AI）的出现，基于个人经验和判断进行行动和思考的自主概念为未来的自主决策铺平了道路。这种未来可以解决相互依存的多计算系统这一复杂领域的问题，而这些系统面临的主要挑战是，它们之间的相互作用会产生不可预测且往往不稳定的结果。为相互依存计算系统设想和设计人工智能驱动的自主性至关重要，它涵盖了从物联网（IoT）到网络安全等各种用例。这可以通过克隆人类决策过程来实现，克隆过程要求人类在决定如何行动之前，先感知未知的随机环境，执行行动，最后评估感知到的反馈。每个人都会根据自己的行为特征和推理，主观地评估反馈是否令人满意。上述步骤的重复迭代构成了人类的学习过程。因此，其核心思想是将人类的认知注入到相互依存的计算系统中，使其转变为人工智能决策体，模仿人类的理性行为属性，自主优化其主观标准。

无人驾驶飞行器（UAV）或多接入边缘计算服务器（MEC）等相互依赖的计算系统的快速发展带来了海量数据和严格的服务质量（QoS）要求。当这些系统以自主方式行动时，它们会表现出竞争行为，因为每个系统都想自私地优化自己的主观标准。这就引入了非合作环境中交互决策的概念，即每个系统的反馈都取决于其他系统可能相互冲突的行动。因此，本文利用博弈论来有效捕捉非合作环境中相互依赖的计算系统之间的战略互动，并证明存在解决方案，即稳定的均衡点。均衡点被认为是稳定的解决方案，因为每个系统都没有单方面改变自身行动的战略动机。为了以分布式方式确定这些均衡点，我们采用了强化学习（RL）技术，该技术可使相互依存的自主计算系统在随机环境中利用自身行动和经验的反馈，通过试错进行智能学习。此外，传统的强化学习方法还加入了奖励重塑技术，通过契约理论考虑自主互联计算系统之间类似劳动经济学的安排，并通过贝叶斯信念模型考虑它们的行为特征。同时利用博弈论和强化学习与奖励重塑技术，是向自感知人工智能（SAAI）迈出的一步。本文证明，它极有可能成为构建基于人工智能的自主决策相互依赖计算系统的主要组成部分，并能有效地应用于各种应用领域。

图 1.1：总体决策框架

本文贡献点

本文首先分析了所使用的数学工具的理论基础。此外，除了传统的单智能体环境，还引入了多个非集中式低复杂度框架，根据人工智能原理将相互依存的多智能体计算系统转化为自主决策者。在多智能体应用环境中，提出了以第 1.1 节所述 IDU 约束为特征的非合作博弈，并应对了由此带来的挑战。具体来说，博弈论与强化学习的融合带来了新颖的低复杂度分布式学习框架。此外，通过注入人类认知属性，传统的 RL 框架得到了丰富，从而使决策过程更加有效。证明了纳什均衡点的存在，并表明基于人工智能的自主相互依存计算系统能够接近这些均衡点，而无需集中式闭合解决方案。通过建模和仿真，在各种实际应用案例中对所提出的框架进行了评估。本论文的主要贡献如下。

1.引入了新颖的低复杂度分布式决策框架，将传统的资源有限、相互依赖的计算系统转变为自主、智能的计算系统。我们研究了两种情况： (a) 完整信息情景，即计算系统可以交换所有必要信息，并以分布式方式收敛到均衡点；以及 (b) 不完整信息情景，即利用强化学习让智能相互依赖计算系统以自主方式接近均衡点。对这两种情况下的运行性能进行了实证评估。

2.在处理非合作博弈的应用领域，通过证明博弈是潜在的或子/超模的方式，用数学方法证明纳什均衡点的存在。如果环境是完全可观察的，则采用传统的闭式求解方法，如最佳响应动力学，反之，则采用各种强化学习算法，从经验上接近纳什均衡点。

3.通过利用契约理论和贝叶斯信念，将人类认知和行为特征分别纳入决策框架。此外，当在信息不对称的环境中运用契约理论时，提供了优化问题的闭式激励解的完整证明，这反过来又从一个非凸问题正式转化为一个凸问题。通过适当地将这些人类意识属性纳入奖励重塑的强化学习框架，计算系统可以自主优化其主观目标并做出有效决策。这是向增强型自我意识人工智能迈出的一步。

4.除了多智能体设置，还将强化学习应用于单智能体问题，例如离线深度强化学习，表明基于 RL 的决策智能体比许多替代策略（例如基于机器学习（ML）的方法）能带来更好的结果。

5.通过在广泛的应用领域进行大规模模拟，对所提出的决策方法进行了实证评估，突出了这些方法的主要操作特点。此外，还引用了与其他方法的详细比较评估，强调了所引入框架的优越性。