深度强化学习实验室
利用算法进行股票量化交易是当今金融市场的一个重要趋势。在国际象棋和围棋等诸多复杂的游戏中,深度强化学习(DRL)智能体都取得了惊人的成绩。深度强化学习的理论同样适用于股票市场的量化决策。本文介绍了同济大学计算机科学与技术系的上海市大学生创新创业训练计划优秀项目:「基于深度强化学习的金融量化策略研究」,解读了如何训练一个 A 股市场的深度强化学习模型,以及回测的绩效表现。
状态 s = [p, h, b],其中 p, h 均为 D 维向量,分别代表股票价格和持股量,b 为当前余额(D 为在市场上考虑的股票数量)。
动作 a: D 维向量,代表对股票的操作。每只股票的可操作行为包括卖出、买入和持有,分别导致持股量 h 的减少、增加和不变。
奖励:代表在状态 s 时执行动作 a 后达到新的状态投资组合价值的变化。投资组合价值是所有持有的股票价值和余额 b 的总和。
策略: 代表股票在状态 s 的交易策略,它本质上是动作 a 在状态 s 的概率分布。
状态动作价值函数: 代表在状态 s 执行动作 a,并在后续状态以策略进行交易所能获得的期望收益。