在复杂和不确定的环境中如何做出决策是一个具有挑战性和至关重要的任务。这些环境中的对手和干扰会破坏现有的策略,而环境的动态性使策略过时。因此,学习能够在极端情况下保持最佳性能并快速适应变化的鲁棒策略至关重要。在这篇论文中,我们专注于三个真实世界的问题领域:网络安全游戏(NSGs)、代理间通信和序列推荐。所有这些领域都需要鲁棒和自适应的决策制定。
我们的首要重点是在网络安全游戏(NSGs)中学习鲁棒的防御策略。在这个领域中,我们设计了两种算法分别用于提高可扩展性和数据效率。首先,我们提出了NSG-NFSP,一种旨在大规模NSGs中寻找纳什均衡的新方法。NSG-NFSP采用深度神经网络来学习从状态-动作对到值的映射,代表着Q值或概率。NSG-NFSP在可扩展性和解决方案质量方面超越了现有的最先进算法。其次,我们引入了NSGZero,一种数据高效的学习方法,用于在NSGs中获取不可被利用的策略。NSGZero结合了三个神经网络,即动态网络、价值网络和先验网络,以便于NSGs中有效的蒙特卡洛树搜索(MCTS)。此外,我们将分散控制集成到神经MCTS中,使NSGZero能够处理具有大量安全资源的NSGs。在各种图结构和规模的不同NSGs上进行的广泛实验表明,即使在有限的训练经验下,NSGZero也表现出优越的性能。
本论文的下一个重点是解决多智能体通信强化学习(MACRL)中鲁棒通信的问题,这是一个此前被大量忽视的话题。我们提供了对抗性通信的正式定义,并提出了一种有效的方法来模拟MACRL中的消息攻击。我们设计了一个两阶段消息过滤器来抵御消息攻击。为了增强鲁棒性,我们将对抗性通信问题构建为一个双方博弈的零和游戏,并设计了算法R-MACRL来解决这个游戏。在不同算法和任务中进行的广泛实验揭示了最先进的MACRL方法对消息攻击的脆弱性,而我们提出的算法始终恢复了多智能体合作,并在消息攻击下提高了MACRL算法的鲁棒性。
此外,我们还研究了如何适应新收集的数据,以优化长期用户参与度在序列推荐中的推荐策略。我们开发了两种强化学习算法,分别学习有和无明确设计奖励的策略。首先,我们介绍了ResAct,这是一种在预定义奖励下提高推荐系统性能的算法。ResAct重建在线服务策略的行为,并通过对动作添加残差来加强它,从而生成与原始策略紧密对齐但性能更好的策略。为了提高状态表示的表现力和简洁性,我们设计了两个信息论正则化器。实证评估表明,在所有任务中,ResAct的性能超越了之前的最先进算法。
此外,我们提出了 PrefRec,这是一种从用户历史行为间的偏好中学习推荐策略的方法,而不是依赖预定义的奖励。这种方法利用了强化学习(RL)的优势,如优化长期目标,同时避免了奖励工程的复杂性。PrefRec 能够自动从偏好中学习奖励函数,并使用它来生成用于训练推荐策略的强化信号。我们为 PrefRec 设计了一种有效的优化方法,利用了额外的价值函数、期望值回归(expectile regression)和奖励函数的预训练来提升性能。实验结果凸显了 PrefRec 在多种长期用户参与度优化任务上相比当前最先进技术的显著性能提升。