【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

2019 年 1 月 1 日 产业智能官

作者:Aishwarya Srinivasan

翻译:Cream

校对:王雨桐

本文介绍了强化学习的应用场景、基本概念和数学模型。


DeepMind开发的AlphaGo(用于下围棋的AI系统)的出现引起了强化学习的热潮。从那之后,许多公司开始投入大量的时间、精力来研究强化学习。目前,强化学习是深度学习领域中的热点问题之一。大多数企业都在努力寻找强化学习的应用实例或者将其应用在商业中的方法。目前来说,此类研究只在零风险、可观测并且易模拟的领域展开。所以,类似金融业、健康行业、保险业、科技咨询公司这样的行业不愿冒险去探索强化学习的应用。此外,强化学习中的“风险管理”部分给研究带来了很大压力。Coursera的创始人Andrew Ng曾表示:“强化学习在机器学习中,对数据的依赖远超过有监督学习。我们很难获得足够多的数据来应用强化学习算法。因此,将强化学习应用到商业实践中仍有许多工作要完成。”


基于这样有些悲观的想法,本文的第1部分将从技术层面深入地探讨强化学习。在第2部分,我们将介绍一些潜在的商业应用。基本上,强化学习是一种复杂的算法,用于将观察到的实际情况和度量(累计奖励)映射到动作集合中,以实现短期或长期的奖励最优化。强化学习的智能体(agent)通过和环境的互动不断学习策略,策略一个动作(以奖励为导向的)序列。事实上,强化学习关注的是即时奖励和随后步骤的奖励(延迟的奖励),因为奖励值是决定智能体改变策略的主要依据。


强化学习的模型包含一个智能体(agent),该智能体在每个环境状态下,通过执行一个动作,改变其状态,这个动作产生的影响用奖励函数来表示。该智能体的目标是要实现长期累计的奖励最大化,在每一个动作执行后,将反馈传递给智能体,智能体可以评估在当前环境最优的下一个动作。通过历史相似情况下的最佳行动,系统会从中学习经验。


图 1 强化学习模型


从数学的角度,我们可以把强化学习看作一个状态模型,特别是一个完全可观测的马尔可夫决策过程(MDP)。为了理解MDP背后的概率理论,我们首先要了解马尔可夫的性质,如下:

 

“未来只依赖于当前,与过去无关。”

 

此性质用于这样的环境:不同行为产生的结果的概率与历史状态无关,只依赖于当前状态。有人用“无记忆性”来描述这个性质。在需要用过去状态来推测未来结果的情形下,马尔可夫性质不适用。

 

这个模型的环境是有限的随机过程,输入智能体的动作,以产生的奖励为输出。总奖励函数(长期累积奖励函数)包含即时奖励和长期折扣的奖励两部分。即时奖励是在智能体执行了一个动作到达某种状态所得到的量化的奖励。长期折扣奖励表示的是这个动作对未来状态的影响。


长期折扣奖励采用折扣因子γ,0<γ<1。折扣因子越大,这个系统越倾向于长期奖励;折扣因子越小,这个系统倾向于即时奖励。Χt表示t时刻的状态,At表示t时刻智能体的动作。

 

状态转移概率函数:智能体在当前状态Χt-1,执行动作A,产生的状态之间的转移概率:



智能体是模拟为一个随机过程的有限状态的机器,输入当前状态,输出下一步执行的动作。St是t时刻的状态,是t-1时刻执行了At动作后达到的状态。At是在长期累计奖励最大化的策略模型下t时刻的策略。


 

状态转换函数:智能体向一个状态的转变是与环境互动的结果。也就是说智能体某一时刻的状态是关于上一时刻状态、奖励、动作的函数。


 

策略函数:策略是在状态St下,以奖励最优化为目标,要执行的动作。


 

智能体的目标是找到满足长期累计折扣奖励最大化的策略Ppi


 

智能体在马尔可夫决策过程中试图从当前状态出发,获得最大的总奖励期望。因此,需要得到最优值函数。Bellman方程用于值函数,分解为当前奖励和下一个状态值的贴现值。



希望你们能够从本文中获得关于强化学习的技术知识!!


原文标题:

Reinforcement Learning: The Business Use Case, Part 1

原文链接:

https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-1.html

译者简介

王power,求职狗,在香港科技大学学习大数据科技。感觉数据科学很有难度,也很有意思,还在学(tu)习(tou)中。一个人肝不动的文献,来数据派follow大佬一起肝。


强化学习的商业应用



作者:Aishwarya Srinivasan, Deep Learning Researcher

翻译:赵雪尧

较对:丁楠雅

本文介绍了强化学习在交易中的应用。



在上一篇文章中,我着重于从计算和数学视角理解强化学习,以及我们在业务中使用算法时面临的挑战。


在本文中,我将探讨强化学习在交易中的应用。金融行业一直在探索人工智能和机器学习的应用,但金融风险让人们不愿这么做。近年来,传统的算法交易得到了发展,如今高计算能力的系统已经实现了任务的自动化,但交易员们仍然要负责制定交易决策。一个股票购买算法模型可能会基于一份估值和增长指标条件清单,来定义一个“买入”或“卖出”信号,然后由交易员定义的某些特定规则触发。

 

例如,这个算法可能很简单,只要在收盘时观察标准普尔指数比过去30天的高点还要高,就买入,或者该指数比过去30天的低点还低,就平仓。这些规则可以是趋势跟踪、反趋势或基于自然界的模式。不同的技术分析师不可避免地会对模式和确认条件有不同的定义。

 

为了使这种方法系统化,交易员必须指定精确的数学条件,以清楚地确定是否形成了头肩顶模式(译者注:头肩顶(Head & Shoulders Top)是股票价格和市场指数最为常见的倒转形态图表之一。头肩顶形态为典型的趋势反转形态,是在上涨行情接近尾声时的看跌形态,图形以左肩、头部、右肩及颈线构成[1]。),以及确定确认该模式的精确条件。

 

在当前金融市场的先进机器学习领域,我们可以看看在2017年10月亮相的EquBot公司的AI型交易所交易基金(AI-based Exchange Traded Funds  ETFs )。EquBot将这些ETFs 自动化,收集来自数千家美国公司的市场信息、超过100万个市场信号、季度新闻文章和社交媒体帖子。


一个给定的ETF可能会选择30到70家有很高市场升值机会的公司,它将从每笔交易中继续学习。另一个知名的市场参与者Horizons也推出了类似的主动AI全球ETF (Active AI Global ETF),这款ETF利用包括交易员制定策略在内的监督机器学习技术开发而成。使用监督学习方法,人工交易员帮助选择阈值、解释延迟、估计费用等等。


Fig1:使用监督学习技术的交易流程图(译者注:纸交易(paper trading),即在模拟账户中进行交易[2]。)


当然,如果要完全自动化,人工智能驱动的交易模型必须比预测价格做得更多。它需要一个基于规则的策略,将股票价格作为输入,然后决定是买入、卖出还是持有。


2018年6月,摩根士丹利(Morgan Stanley)任命宾夕法尼亚大学(University of Pennsylvania)的计算机科学家迈克尔•卡恩斯(Micheal Kearns)担任首席执行官,以扩大人工智能的应用。在接受彭博社采访时,卡恩斯博士指出,“虽然标准的机器学习模型对价格进行预测,但它们没有具体说明行动的最佳时间、交易的最佳规模或交易对市场的影响。” 他补充说:“通过强化学习,你正在学习如何预测你的行为对市场状况的影响。”


强化学习允许端到端优化和最大化回报。至关重要的是,强化学习模型本身会调整参数,以使其接近最优结果。例如,我们可以想象,当下跌超过30%时,会产生巨大的负面回报,这迫使模型考虑使用另一个策略。我们也可以建立模拟来改善在关键情况下的反应。例如,我们可以在强化学习环境中模拟延迟,以便为模型生成负面激励。这种负面回报反过来又迫使模型学习应对延迟的变通方法。类似的策略允许模型随着时间的推移自动调整,不断地使其更强大和适应性更强。


Fig2:使用强化学习模型进行交易的流程图


在IBM,我们在DSX平台(IBM Data Science Experience (DSX))上建立了一个复杂的系统,利用强化学习的力量进行金融交易。该模型利用历史股票价格数据,通过在每一步中采用随机策略进行训练,并根据每笔交易的盈亏来计算回报函数。


“IBM数据科学体验平台(DSX)是一个企业数据科学平台,它为团队提供了最广泛的开源和数据科学工具,以满足任何技能需求,在多云环境中构建和部署任何地方的灵活性,以及更快地操作数据科学成果的能力。”


以下图表示了将强化学习方法与金融交易应用在一起的使用案例。


Fig3:强化学习交易模型


我们使用alpha指标(积极的投资回报,ROI)来衡量强化交易模型的表现,并根据代表市场整体走势的市场指数来评估投资的表现。最后,我们以一个简单的买入&持有策略模型和ARIMA-GARCH策略模型来进行模型评估对比。我们发现,该模型根据市场走势进行了非常精细的调节,甚至可以捕捉到头肩顶的模式,这些都是可以预示市场逆转的重要趋势。


强化学习可能并不适用于所有业务场景,但它捕捉金融交易微妙之处的能力肯定会显示出它的复杂性、威力和更大的潜力。


请继续关注我们在更多业务场景中测试强化学习的能力!

 

[1] 百度百科:

https://baike.baidu.com/item/%E5%A4%B4%E8%82%A9%E9%A1%B6

[2] https://www.avatrade.cn/education/trading-for-beginners/paper-trading.html


原文标题:

Reinforcement Learning: The Business Use Case, Part 2

原文链接:

https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-2.html



译者简介

赵雪尧,北邮研三在读,京东见习算法工程师,目前研究强化学习广告竞价模型。相信数据和算法将为企业发展赋能,希望跟志同道合的小伙伴一起追寻前沿消息,深入探索算法的极限。在玄学调参的道路上,一路狂奔。





工业互联网




产业智能官  AI-CPS


加入知识星球“产业智能研究院”:先进产业OT(工艺+自动化+机器人+新能源+精益)技术和新一代信息IT技术(云计算+大数据+物联网+区块链+人工智能)深度融合,在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链



版权声明产业智能官(ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。



登录查看更多
18

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
270+阅读 · 2020年4月19日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
36+阅读 · 2018年1月30日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
关于强化学习(附代码,练习和解答)
深度学习
36+阅读 · 2018年1月30日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
52+阅读 · 2017年8月11日
相关论文
Arxiv
14+阅读 · 2019年11月26日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
11+阅读 · 2018年4月25日
Top
微信扫码咨询专知VIP会员