摘要
离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静态数据集,无需在线和环境交互,成功地将大规模数据转换成强大的决策引擎。近年来,离线强化学习方法得到了广泛关注和深入研究,并在实际应用中取得了瞩目的成績。目前,该方法已经应用于推荐系统、导航驾驶、自然语言处理、机器人控制以及医疗与能源等应用领域,并被看作是现实世界应用强化学习最具潜力的技术途径之一。该文首先介绍了离线强化学习的背景与理论基础。随后从决策思路出发,将离线强化学习方法分为无模型、基于模型和基于Transformer模型3大类,并对各类方法的研究现状与发展趋势进行分析。同时,对比了目前3个最流行的实验环境D4RL、RL Unplugged和NeoRL,进而介绍了离线强化学习技术在现实世界诸多领域的应用。最后,对离线强化学习进行了总结与展望,以此推动更多领域的研究工作。 关键词
人工智能;强化学习;深度强化学习;离线强化学习;批量强化学习