记忆池」是深度强化学习的基本部件,但多年以来如何最优利用记忆池仍然未知。
在刚刚闭幕的机器学习国际顶级会议NeurIPS 2021上,南京大学人工智能学院独立完成的工作「Regret Minimization Experience Replay in Off-Policy Reinforcement Learning」,首次揭示了深度强化学习「记忆池」的最优利用方法。
https://openreview.net/forum?id=5AixAJweEyC
该工作由俞扬教授指导,其共同第一作者,2018级本科生薛正海,是南大人工智能学院的首届本科生。