Predicting accurate future trajectories of multiple agents is essential for autonomous systems, but is challenging due to the complex agent interaction and the uncertainty in each agent's future behavior. Forecasting multi-agent trajectories requires modeling two key dimensions: (1) time dimension, where we model the influence of past agent states over future states; (2) social dimension, where we model how the state of each agent affects others. Most prior methods model these two dimensions separately; e.g., first using a temporal model to summarize features over time for each agent independently and then modeling the interaction of the summarized features with a social model. This approach is suboptimal since independent feature encoding over either the time or social dimension can result in a loss of information. Instead, we would prefer a method that allows an agent's state at one time to directly affect another agent's state at a future time. To this end, we propose a new Transformer, AgentFormer, that jointly models the time and social dimensions. The model leverages a sequence representation of multi-agent trajectories by flattening trajectory features across time and agents. Since standard attention operations disregard the agent identity of each element in the sequence, AgentFormer uses a novel agent-aware attention mechanism that preserves agent identities by attending to elements of the same agent differently than elements of other agents. Based on AgentFormer, we propose a stochastic multi-agent trajectory prediction model that can attend to features of any agent at any previous timestep when inferring an agent's future position. The latent intent of all agents is also jointly modeled, allowing the stochasticity in one agent's behavior to affect other agents. Our method significantly improves the state of the art on well-established pedestrian and autonomous driving datasets.
翻译:预测多试剂轨迹需要建模两个关键层面:(1) 时间维度,我们在其中建模过去代理人状态对未来状态的影响;(2) 社会维度,我们在那里建模每个代理人的状态对他人的影响;(2) 社会维度,我们在其中建模每个代理人的状态对另一个代理人的影响。大多数先前的方法分别建模这两个维度。例如,首先使用时间模型,独立地总结每个代理人的特征,然后用一个社会模型模拟所总结的特征与每个代理人未来行为的相互作用。这种方法是次优的,因为对时间或社会层面的独立特征进行编码可能导致信息丢失。相反,我们更倾向于一种方法,让一个代理人的状态对未来状态产生直接影响;为此,我们建议一个新的变压器,AtrentFormer, 联合地模拟每个代理人的时间和社会层面。模型利用多剂状态的顺序,通过一个固定的轨迹特征定位,在时间和社交代理体中进行模拟。这个方法是,在时间和社交代理体中,一个固定的轨迹定位定位定位定位位置,这个方法是:在时间和时间代理体中,一个标准的注意力运行中,一个新的代理剂的动力动力动力动力动力动力序列,每个要素使用一个动作的特性的动作,一个动作的动作的动作, 向另一个动力动力动力动力动力动力动力动力动力动力动力动力动力的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性的特性