We are interested in interactive agents that learn to coordinate, namely, a $builder$ -- which performs actions but ignores the goal of the task, i.e. has no access to rewards -- and an $architect$ which guides the builder towards the goal of the task. We define and explore a formal setting where artificial agents are equipped with mechanisms that allow them to simultaneously learn a task while at the same time evolving a shared communication protocol. Ideally, such learning should only rely on high-level communication priors and be able to handle a large variety of tasks and meanings while deriving communication protocols that can be reused across tasks. We present the Architect-Builder Problem (ABP): an asymmetrical setting in which an architect must learn to guide a builder towards constructing a specific structure. The architect knows the target structure but cannot act in the environment and can only send arbitrary messages to the builder. The builder on the other hand can act in the environment, but receives no rewards nor has any knowledge about the task, and must learn to solve it relying only on the messages sent by the architect. Crucially, the meaning of messages is initially not defined nor shared between the agents but must be negotiated throughout learning. Under these constraints, we propose Architect-Builder Iterated Guiding (ABIG), a solution to ABP where the architect leverages a learned model of the builder to guide it while the builder uses self-imitation learning to reinforce its guided behavior. We analyze the key learning mechanisms of ABIG and test it in 2D tasks involving grasping cubes, placing them at a given location, or building various shapes. ABIG results in a low-level, high-frequency, guiding communication protocol that not only enables an architect-builder pair to solve the task at hand, but that can also generalize to unseen tasks.
翻译:我们感兴趣的是学会协调的互动代理机构,即美元建设者,该代理机构开展行动,但忽视任务的目标,即无法获得奖赏;以及美元建筑公司,该代理机构指导建设者实现任务的目标。我们定义和探索一个正式的环境,其中人为代理机构配备了各种机制,使其能够同时学习任务,同时形成一个共同的通信协议。理想的情况是,这种学习应当仅依靠高级沟通前程,并且能够处理大量的任务和含义,同时制定可以再利用但不能执行任务的通信协议。我们介绍建筑公司-建筑公司问题(ABB):一个不对称的环境,其中建筑师必须学会指导建筑公司构建一个特定的结构。我们定义了目标结构,但不能在环境中运作,只能向建筑公司发送武断的信息。另一方面,建筑公司只能在环境中运作,但不能获得任何奖赏,也不能对任务有任何了解,并且必须学习仅依靠建筑师发出的信息。我们正确地指导了建筑公司-建筑公司-建筑公司-建筑公司-建筑公司-建筑公司-建筑公司-建筑公司-建筑公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-公司-