Our work focuses on extra gradient learning algorithms for finding Nash equilibria in bilinear zero-sum games. The proposed method, which can be formally considered as a variant of Optimistic Mirror Descent \cite{DBLP:conf/iclr/MertikopoulosLZ19}, uses a large learning rate for the intermediate gradient step which essentially leads to computing (approximate) best response strategies against the profile of the previous iteration. Although counter-intuitive at first sight due to the irrationally large, for an iterative algorithm, intermediate learning step, we prove that the method guarantees last-iterate convergence to an equilibrium. Particularly, we show that the algorithm reaches first an $\eta^{1/\rho}$-approximate Nash equilibrium, with $\rho > 1$, by decreasing the Kullback-Leibler divergence of each iterate by at least $\Omega(\eta^{1+\frac{1}{\rho}})$, for sufficiently small learning rate, $\eta$, until the method becomes a contracting map, and converges to the exact equilibrium. Furthermore, we perform experimental comparisons with the optimistic variant of the multiplicative weights update method, by \cite{Daskalakis2019LastIterateCZ} and show that our algorithm has significant practical potential since it offers substantial gains in terms of accelerated convergence.
翻译:我们的工作侧重于在双线性零和游戏中找到 Nash equiliblibl 的额外的梯度学习算法,以寻找双线零和的双线零和游戏中 Nash 的 Nash 平衡。 拟议的方法可以被正式考虑作为乐观的镜底源:DBLP:conf/iclr/iclr/MertikopopopolLZ19}的变方 : DBLP:conf/iclr/iclr/MertikopopolLZ19} 的替代物,对中间梯级步骤采用很高的学习率,这基本上导致计算(近似)最佳反应策略与前一次迭代的配置。虽然由于非理性的大不合理趋近于初见的直觉反直觉,但对于迭接续的算算算算算算算算算算算法、中间学习步骤,我们证明该方法能保证最后的将最后的地差率趋同平衡。 特别是,我们证明算法首先达到$19/\\ 美元, 接近纳纳纳纳纳纳 平衡的纳 基 基 基 基 的 基 的 的 基 的 基 的 基 的 的 基 的 的 的 基 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 基 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的