随着技术快速发展,空中交互模式日益复杂,智能空战已成为多智能体系统领域前沿研究方向。在此背景下,大规模空战场景的动态性与不确定性带来显著挑战,包括可扩展性问题、计算复杂性及多智能体协同决策难题。为解决这些问题,我们提出一种基于图结构与零阶优化的多智能体强化学习(MADRL)新型自主空战决策方法——GraphZeroPPO算法。该方法创新性地将GraphSAGE图网络与零阶优化融入MADRL框架,通过图结构适应多智能体系统高动态与高维特性,利用高效采样策略实现导弹发射快速决策,同时借助零阶优化有效探索全局最优解。最后,我们展示了在1v1与8v8空战场景下的仿真实验及对比结果。研究表明,该方法能有效适应大规模空战环境,同时实现高胜率与快速决策性能。