摘要

离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静态数据集,无需在线和环境交互,成功地将大规模数据转换成强大的决策引擎。近年来,离线强化学习方法得到了广泛关注和深入研究,并在实际应用中取得了瞩目的成績。目前,该方法已经应用于推荐系统、导航驾驶、自然语言处理、机器人控制以及医疗与能源等应用领域,并被看作是现实世界应用强化学习最具潜力的技术途径之一。该文首先介绍了离线强化学习的背景与理论基础。随后从决策思路出发,将离线强化学习方法分为无模型、基于模型和基于Transformer模型3大类,并对各类方法的研究现状与发展趋势进行分析。同时,对比了目前3个最流行的实验环境D4RL、RL Unplugged和NeoRL,进而介绍了离线强化学习技术在现实世界诸多领域的应用。最后,对离线强化学习进行了总结与展望,以此推动更多领域的研究工作。 关键词

人工智能;强化学习;深度强化学习;离线强化学习;批量强化学习

成为VIP会员查看完整内容
1

相关内容

《多模态对齐与融合》综述
专知会员服务
70+阅读 · 2024年11月27日
元强化学习研究综述
专知会员服务
36+阅读 · 2024年4月23日
《图持续学习》综述
专知会员服务
44+阅读 · 2024年2月13日
面向算法选择的元学习研究综述
专知会员服务
44+阅读 · 2023年2月11日
深度学习模型鲁棒性研究综述
专知会员服务
93+阅读 · 2022年1月23日
编码计算研究综述
专知会员服务
22+阅读 · 2021年10月26日
基于强化学习的推荐研究综述
专知会员服务
84+阅读 · 2021年10月21日
专知会员服务
41+阅读 · 2021年7月10日
专知会员服务
39+阅读 · 2021年3月3日
专知会员服务
225+阅读 · 2020年5月6日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
11+阅读 · 2022年1月16日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
161+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
421+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
151+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《多模态对齐与融合》综述
专知会员服务
70+阅读 · 2024年11月27日
元强化学习研究综述
专知会员服务
36+阅读 · 2024年4月23日
《图持续学习》综述
专知会员服务
44+阅读 · 2024年2月13日
面向算法选择的元学习研究综述
专知会员服务
44+阅读 · 2023年2月11日
深度学习模型鲁棒性研究综述
专知会员服务
93+阅读 · 2022年1月23日
编码计算研究综述
专知会员服务
22+阅读 · 2021年10月26日
基于强化学习的推荐研究综述
专知会员服务
84+阅读 · 2021年10月21日
专知会员服务
41+阅读 · 2021年7月10日
专知会员服务
39+阅读 · 2021年3月3日
专知会员服务
225+阅读 · 2020年5月6日
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
11+阅读 · 2022年1月16日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
相关基金
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员