强化学习在最近的学术和商业研究项目中的应用已经产生了能够达到或超过人类性能水平的强大系统。本论文的目的是确定通过强化学习训练的智能体是否能够在小型战斗场景中实现最佳性能。在一组计算实验中,训练是在一个简单的总体层面上进行的,模拟能够实现确定性和随机性的战斗模型,神经网络的性能被验证为质量和武力经济性战术原则。总的来说,神经网络能够学习到理想的行为,其中作战模型和强化学习算法对性能的影响最为显著。此外,在集结是最佳战术的情况下,训练时间和学习率被确定为最重要的训练超参数。然而,当武力的经济性是理想的时候,折扣系数是唯一有重大影响的超参数。综上所述,本论文得出结论,强化学习为发展战斗模拟中的智能行为提供了一种有前途的手段,它可以应用于训练或分析领域。建议未来的研究对更大、更复杂的训练场景进行研究,以充分了解强化学习的能力和局限性。