OW QMIX, CW QMIX, QTRAN, QMIX, and VDN are the state-of-the-art algorithms for solving Dec-POMDP domains. OW QMIX, CW QMIX, QTRAN, QMIX, and VDN failed to solve complex agents' cooperation domains such as box-pushing. We give a 2-stage algorithm to solve such problems. On 1st stage we solve single-agent problem (POMDP) and get an optimal policy traces. On 2nd stage we solve multi-agent problem (Dec-POMDP) with the single-agent optimal policy traces. Single-agent to multi-agent has a clear advantage over OW QMIX, CW QMIX, QTRAN, QMIX, and VDN on complex agents' cooperative domains.
翻译:OW QMIX、 CW QMIX、 QTRAN、 QMIX 和 VDN 是解决 Dec- POMDP 域的最先进的算法 。 OW QMIX、 CW QMIX、 QTRAN、 QMIX 和 VDN 未能解决箱推动等复杂代理方的合作领域。 我们给出了两个阶段的算法来解决这些问题。 在第一阶段, 我们解决了单剂问题( POMDP ), 并获得了最佳的政策痕迹 。 在第二阶段, 我们用单剂最佳政策迹解决了多剂问题( Dec- POMDP ) 。 多剂的单剂在复杂的代理方合作领域比 OW QMIX、 CW QMIX、 QTRAN 、 QMIX 和 VDN 具有明显优势 。