针对作战Agent适应性问题,梳理遗传算法、强化学习、神经网络等方法在实现作战Agent适应性方面的成果,总结每种方法的特点;介绍深度强化学习方法在实现作战Agent适应性方面的应用情况,讨论深度强化学习在该方面应用的发展趋势和研究重点。该研究可为后续相关研究提供参考。
现代战争是典型的复杂适应系统,而基于多 Agent 建模仿真(agent-based modeling and simulation,ABMS)方法一直以来是研究这类系统 的有效手段和方法。作战 Agent 是各类作战实体(层 次、粒度可能不同)在仿真系统中的映射,也是 ABMS 的核心要素。Holland 的复杂适应系统理论 (complex adaptive system,CAS)认为适应性造就复 杂性,相对应的,在采用 ABMS 研究作战问题时, 在系统微观层面上,要求 Agent 必须具备动态环境 的自适应能力,即 Agent 能通过与环境和其他 Agent 的交互,不断积累经验,提高自己和所属团队在环 境中的生存能力。应用机器学习技术赋予战争模拟 系统中的智能 Agent 适应能力,始终是基于 CAS 理 论的战争复杂性研究的基础内容之一,比如海战仿 真中,舰艇 Agent 的许多决策内容都涉及到学习和 适应,包括航路选择、协同防空、火力分配、目标 搜索等。作战 Agent 需要通过自身知识的不断积累 来逐步提高自身能力。长期以来,很多学者已经围绕作战 Agent 的学 习方法开展了卓有成效的研究。笔者重点梳理遗传 算法、强化学习、神经网络等方法在这方面的成果, 介绍了深度学习方法在实现作战 Agent 适应性方面 的应用情况,并从智能博弈平台、学习算法构建、 双方共同进化等方面讨论了深度强化学习在作战 Agent 学习领域的发展趋势和研究重点,以期起到 抛砖引玉的作用。