强化学习(RL)可能是克服以前无法克服的障碍,实现技术和科学创新的关键。在托卡马克控制中,RL可能会产生重大影响。托卡马克是将核聚变变为可行能源的最有前途的装置之一。它们通过磁性约束等离子体来运行;然而,长时间和高压下维持等离子体仍然是托卡马克控制领域的一个挑战。RL可能能够学会如何维持等离子体,但像许多令人兴奋的RL应用一样,在真实装置上收集数据以学习策略是不可行的。在本论文中,我们探索了使用环境替代模型来学习策略,尤其是使用从离线数据源中学习的替代模型。首先在第一部分中,我们研究了在拥有可以生成数据的模拟器的情况下,但由于模拟器计算量太大,无法使用数据需求量大的深度RL算法的情景。我们建议使用贝叶斯优化算法来学习这种策略。接下来,我们转向可以使用离线数据学习环境替代模型的设置。虽然这些模型在计算上便宜得多,但它们的预测不可避免地包含错误。因此,稳健的策略学习程序和良好的模型错误不确定性量化对于成功至关重要。为了解决前者,在第二部分中,我们提出了一种考虑这些建模错误的轨迹拼接算法和一个自适应但稳健的策略网络架构。第三部分重点转向不确定性量化,我们提出了一种更智能的不确定性采样程序和一种用于有效学习不确定性的神经过程架构。在最后一部分中,我们详细说明了如何学习预测等离子体演变的模型,如何使用这些模型训练中性束控制器,以及在DIII-D托卡马克上部署该控制器的结果。

成为VIP会员查看完整内容
15

相关内容

【MIT博士论文】合成数据的视觉表示学习
专知会员服务
22+阅读 · 8月25日
【CMU博士论文】多感官人工智能的基础
专知会员服务
38+阅读 · 5月3日
【NTU博士论文】语言模型自适应迁移学习
专知会员服务
34+阅读 · 2023年12月20日
【CVPR2023】深度卷积神经网络的数学架构设计
专知会员服务
32+阅读 · 2023年3月13日
【伯克利Alvin Wan博士论文】高效设计深度神经网络
专知会员服务
59+阅读 · 2022年5月21日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员