Most of the literature on learning in games has focused on the restrictive setting where the underlying repeated game does not change over time. Much less is known about the convergence of no-regret learning algorithms in dynamic multiagent settings. In this paper, we characterize the convergence of \emph{optimistic gradient descent (OGD)} in time-varying games by drawing a strong connection with \emph{dynamic regret}. Our framework yields sharp convergence bounds for the equilibrium gap of OGD in zero-sum games parameterized on the \emph{minimal} first-order variation of the Nash equilibria and the second-order variation of the payoff matrices, subsuming known results for static games. Furthermore, we establish improved \emph{second-order} variation bounds under strong convexity-concavity, as long as each game is repeated multiple times. Our results also apply to time-varying \emph{general-sum} multi-player games via a bilinear formulation of correlated equilibria, which has novel implications for meta-learning and for obtaining refined variation-dependent regret bounds, addressing questions left open in prior papers. Finally, we leverage our framework to also provide new insights on dynamic regret guarantees in static games.
翻译:在游戏中学习的文献大多集中在限制设置上, 基础的重复游戏不会随时间而改变。 在动态多试剂设置中, 不回报学习算法的趋同程度, 远不为人所知。 在本文中, 我们通过与 emph{optimatic 梯度下游( OGD) 的强烈连接, 来描述时间变化游戏的趋同性( OGD ) 。 我们的框架在OGD 零和游戏的均衡差异上, 使OGD 的趋同性( 零和 零和 ) 参数在 \ emph{ minal} 参数上出现强烈的趋同性。 在动态多试样的游戏中, 我们把改进的\ emph{ 秒偏差 的变异性( OGD) 归同性( OGD) 归结为“ ” 。 我们通过双线对应的正比对相对等调( ) 基调 和 基调( 基调) 基调( 对元学习有新影响), 和 后级( 后级( 后级( ) 后期) 获取 后期) 后期) 的论文( 提供我们更精确的 后 的 的 的 的 后置变相近感,, 提供 的 后置 后置 的 的 后 后 的 后 的, 的 后置 的 后置 后 的 的 的 的,, 后置 后置 的, 的 后置 的 的 的 后置, 后置 后置 后置 的 的 的 的 的 的 的 的 的 的 的 的 的 后 后 后, 我们的 后 后 后 的 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后 后