现代建模和仿真环境(如商业游戏或军事训练系统)经常要求交互式智能体按照预先确定的规范(如故事板或军事战术文件)表现出逼真和反应灵敏的行为。创建智能体的传统方法(如状态机或行为树)需要花费大量精力,通过人工知识工程来开发状态表示和转换过程。另一方面,较新的行为生成技术(如深度强化学习)需要大量的训练数据(在许多情况下需要几个世纪),而且无法保证生成的行为与预期目标和行动方案一致。本文研究了行为克隆方法在设计交互式智能体中的应用。在我们的方法中,用户首先通过状态机模型或行为树等直接方法定义所需的行为。然后,使用行为克隆方法将从这些模型中采样的真实轨迹数据转化为可微分策略,并通过参与互动游戏环境进一步完善这些策略。通过对任务性能和训练稳定性进行比较,这种方法可以改善训练结果。

成为VIP会员查看完整内容
52

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《深度强化学习在集群系统中的应用》31页论文
专知会员服务
56+阅读 · 2023年3月14日
《人机交互中机器学习的透明通信》论文
专知会员服务
31+阅读 · 2023年3月12日
《基于知识图谱的有限交互决策过程框架》17页论文
专知会员服务
61+阅读 · 2023年3月5日
《基于人工智能的态势感知评估》论文
专知会员服务
116+阅读 · 2023年2月21日
《动态知识图谱的更新嵌入》55页论文
专知会员服务
33+阅读 · 2022年6月22日
浙大《深度学习低样本目标检测》综述论文
专知会员服务
74+阅读 · 2021年12月13日
《过参数化机器学习理论》综述论文
专知会员服务
45+阅读 · 2021年9月19日
专知会员服务
89+阅读 · 2021年7月9日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
《深度强化学习在集群系统中的应用》31页论文
专知会员服务
56+阅读 · 2023年3月14日
《人机交互中机器学习的透明通信》论文
专知会员服务
31+阅读 · 2023年3月12日
《基于知识图谱的有限交互决策过程框架》17页论文
专知会员服务
61+阅读 · 2023年3月5日
《基于人工智能的态势感知评估》论文
专知会员服务
116+阅读 · 2023年2月21日
《动态知识图谱的更新嵌入》55页论文
专知会员服务
33+阅读 · 2022年6月22日
浙大《深度学习低样本目标检测》综述论文
专知会员服务
74+阅读 · 2021年12月13日
《过参数化机器学习理论》综述论文
专知会员服务
45+阅读 · 2021年9月19日
专知会员服务
89+阅读 · 2021年7月9日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员