This article studies rational and persistent deception among intelligent robots to enhance security and operational efficiency. We present an N-player K-stage game with an asymmetric information structure where each robot's private information is modeled as a random variable or its type. The deception is persistent as each robot's private type remains unknown to other robots for all stages. The deception is rational as robots aim to achieve their deception goals at minimum cost. Each robot forms a dynamic belief of others' types based on intrinsic or extrinsic information. Perfect Bayesian Nash equilibrium (PBNE) is a natural solution concept for dynamic games of incomplete information. Due to its requirements of sequential rationality and belief consistency, PBNE provides a reliable prediction of players' actions, beliefs, and expected cumulative costs over the entire K stages. The contribution of this work is fourfold. First, we identify the PBNE computation as a nonlinear stochastic control problem and characterize the structures of players' actions and costs under PBNE. We further derive a set of extended Riccati equations with cognitive coupling under the linear-quadratic (LQ) setting and extrinsic belief dynamics. Second, we develop a receding-horizon algorithm with low temporal and spatial complexity to compute PBNE under intrinsic belief dynamics. Third, we investigate a deceptive pursuit-evasion game as a case study and use numerical experiments to corroborate the results. Finally, we propose metrics, such as deceivability, reachability, and the price of deception (PoD), to evaluate the strategy design and the system performance under deception.
翻译:本文章研究智能机器人之间理性和持续的欺骗,以提高安全和操作效率。 我们展示了N玩家K阶段游戏, 其信息结构不对称, 机器人的私人信息以随机变量或类型为模型。 欺骗是持续的, 因为每个机器人的私人类型在各阶段都对其他机器人不为人所知。 欺骗是理性的, 因为机器人的目标是以最低的成本实现欺骗目标。 每个机器人根据内在或外部信息对其他人的类型形成动态的信念。 完美的Bayesian Nash平衡( PBNE) 是一个动态信息游戏的自然解决方案概念。 由于它要求每个机器人的私人信息以随机变量或类型为模型。 PBNE提供可靠的预测, 因为它要求每个机器人的私人信息都以随机理性和信仰为模型。 由于每个机器人的私人类型, 每个机器人的私人类型在所有阶段都仍然为未知。 首先, 我们确定 PBNE值计算是非线式的测序控制问题, 并描述玩家行动和成本结构。 我们进一步得出一系列的Riccattical 等方和认知组合组合, 在线宽度( LQ) 确定和信念下, 最终的精确度 定义定义, 我们提出和精确的精确的精确的逻辑分析,, 选择, 和精确的逻辑分析,, 我们提出一个最终的精确的精确性变变变变变变变变变变变的逻辑 的,,, 我们的精确性,, 我们的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的