算法股票交易已经成为当今金融市场的一种主要交易方式,大多数交易现在已经完全自动化。深度强化学习(DRL)代理被证明是一种力量,在许多复杂的游戏,如国际象棋和围棋不可忽视。本文将股票市场的历史价格序列和走势看作是一个复杂的、不完全的信息环境,在这个信息环境中,本文试图实现收益最大化和风险最小化。本文回顾了金融人工智能子领域的深度强化学习,更准确地说,自动低频定量股票交易的进展。许多被审查的研究只有在不现实的环境中进行的实验的概念证明理想,没有实时的交易应用程序。对于大多数工程而言,尽管与既定的基线战略相比,所有工程都显示出在统计上显著的绩效改进,但没有获得像样的盈利水平。此外,在实时在线交易平台上缺乏实验测试,在基于不同类型DRL或人类交易员的代理之间缺乏有意义的比较。本文的结论是,DRL在股票交易中显示出巨大的适用性,在强有力的假设条件下,其潜力可与专业交易者媲美,但研究仍处于非常早期的发展阶段。