强化学习是一种专注于序贯决策问题的机器学习范式。与机器学习和统计学的其他许多领域一样,数据效率常常是一个核心关注点——也就是说,一个序贯决策代理需要多少试错式的交互数据,才能学会期望的行为?实现高数据效率的强化学习所面临的关键障碍之一是“探索”的挑战:代理需要在获取环境新知识与利用当前知识以实现近期性能最大化之间进行权衡。

传统关于探索与利用之间权衡的文献,主要聚焦于那些代理能够在可接受的时间范围内接近最优性能的环境。然而,现代的人工决策代理往往面临更加复杂的环境,例如万维网,在这类环境中,期望在任何现实的时间尺度内接近最优表现几乎是不可能的。

本论文的研究重点在于提出一套有理论依据且具有实践可行性的探索策略,用以应对复杂环境中的探索问题。我们的方法基于一个简单但深刻的观察:面对复杂环境时,代理无需试图获取实现最优行为所需的全部信息,而应转而追求一组“适度”的信息。这些信息虽不足以支持近乎最优的表现,但足以推动行为的持续改进。 我们设计了一种代理,其探索策略围绕上述思想展开,并从理论和实证两个角度对其行为进行了分析。实际上,该代理在每一个时间步骤上都在进行“学什么”的决策,以在信息需求和性能之间实现期望的权衡。 正如本论文所阐明的,构建此类代理的核心思想,源于信息论与有损压缩中的经典工具。这些工具不仅为我们提供了理论上的严谨性保证,也具备良好的可扩展性,使得在实际系统中部署成为可能。

成为VIP会员查看完整内容
24

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
30+阅读 · 1月24日
【CMU博士论文】算法和架构的学习
专知会员服务
33+阅读 · 2024年9月27日
【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
40+阅读 · 2024年4月26日
【伯克利Lydia Liu博士论文】机器学习与决策的社会动力学
【干货书】可解释人工智能(xAI)方法和深度元学习模型
专知会员服务
61+阅读 · 2020年9月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
166+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员