这个项目利用RL的一些最新进展来开发实时战略游戏的规划器,特别是MicroRTS来代替Stratagem计划的兵棋。PI实验室的这些进展之一被称为强化学习作为预演(RLaR)。在此之前,RLaR只在玩具基准任务中进行了评估,以确定其在减少样本复杂性方面的功效。这个项目为行为者-评论者架构开发了RLaR,并首次将其应用于具有不完整信息的复杂领域,如MicroRTS。本项目中应用的另一项技术源于最近在复杂的《星际争霸II》游戏中多智能体学习的成功,特别是多阶段训练的架构,在训练稳健策略的中间阶段发展联盟和联盟开拓者策略。

我们针对MicroPhantom--最近MicroRTS比赛的亚军--对RLaR进行了训练,结果表明它能够对这个对手进行有效的计划,但使用的样本比相关基线少。另外,我们使用4个阶段的训练方案在自我博弈中训练RLaR,并针对MentalSeal(冠军程序)和MicroPhantom评估了训练后的策略。虽然该策略在面对MicroPhantom时再次显示出良好的性能,但它在面对MentalSeal时却没有表现得很好。根据先前的初步发现,针对MentalSeal的训练是非常缓慢的,我们推测需要大量的训练时间,而不是我们在这个项目的延长期内能够投入到这个步骤中的。

成为VIP会员查看完整内容
62

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年8月17日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员