A major limitation of existing routing algorithms for multi-agent systems is that they are designed without considering the potential presence of adversarial agents in the decision-making loop, which could lead to severe performance degradation in real-life applications where adversarial agents may be present. We study autonomous pickup-and-delivery routing problems in which adversarial agents launch coordinated denial-of-service attacks by spoofing their locations. This deception causes the central scheduler to assign pickup requests to adversarial agents instead of cooperative agents. Adversarial agents then choose not to service the requests with the goal of disrupting the operation of the system, leading to delays, cancellations, and potential instability in the routing policy. Policy stability in routing problems is typically defined as the cost of the policy being uniformly bounded over time, and it has been studied through two different lenses: queuing theory and reinforcement learning (RL), which are not well suited for routing with adversaries. In this paper, we propose a new stability criterion, STAIR, which is easier to analyze than queuing-theory-based stability in adversarial settings. Furthermore, STAIR does not depend on a chosen discount factor as is the case in discounted RL stability. STAIR directly links stability to desired operational metrics, like a finite number of rejected requests. This characterization is particularly useful in adversarial settings as it provides a metric for monitoring the effect of adversaries in the operation of the system. Furthermore, we demonstrate STAIR's practical relevance through simulations on real-world San Francisco mobility-on-demand data. We also identify a phenomenon of degenerate stability that arises in the adversarial routing problem, and we introduce time-window constraints in the decision-making algorithm to mitigate it.


翻译:现有多智能体系统路由算法的主要局限在于设计时未考虑决策回路中可能存在的对抗性智能体,这在实际应用中可能导致严重的性能下降。我们研究了自主取货-配送路由问题,其中对抗性智能体通过伪造位置信息发起协同拒绝服务攻击。这种欺骗行为导致中央调度器将取货请求分配给对抗性智能体而非协作智能体。对抗性智能体随后选择不执行服务请求,旨在破坏系统运行,从而导致路由策略出现延迟、取消及潜在的不稳定现象。路由问题中的策略稳定性通常定义为策略成本随时间一致有界,现有研究通过两种不同视角对此进行探讨:排队论与强化学习(RL),但这两种方法均不适用于存在对抗者的路由场景。本文提出一种新的稳定性准则STAIR,其在对抗环境下比基于排队论的稳定性更易于分析。此外,STAIR不像折扣RL稳定性那样依赖于预设的折扣因子。该准则直接将稳定性与期望运行指标(如有限数量的被拒请求)相关联。这种特性在对抗环境中尤为重要,因为它为监测对抗者对系统运行的影响提供了量化指标。进一步地,我们通过基于旧金山真实世界按需出行数据的仿真实验,验证了STAIR的实际应用价值。同时,我们发现了对抗性路由问题中出现的退化稳定性现象,并通过在决策算法中引入时间窗约束来缓解该问题。

0
下载
关闭预览

相关内容

【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
【KDD2023】半监督图不平衡回归
专知会员服务
26+阅读 · 2023年5月24日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
专知会员服务
42+阅读 · 2021年1月18日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
【KDD2023】半监督图不平衡回归
专知会员服务
26+阅读 · 2023年5月24日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
专知会员服务
42+阅读 · 2021年1月18日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员