DeepMind三人组挑战股市,曾开发出首个战胜职业玩家的德州扑克AI

2022 年 4 月 16 日 新智元



  新智元报道  

编辑:LRS

【新智元导读】首个战胜德州扑克职业玩家的AI系统,DeepStack的三位开发人员最近离职DeepMind,宣布将用强化学习技术征战股市,收获的种子轮融也是破了捷克共和国的纪录。


开发算法来自动买股票可以说是每个机器学习从业者都想干的事了,只要研究好策略,再训练一个模型,简直就是躺赚啊!

 

 

最近DeepMind的三位前员工也开始研究上了怎么自动买公司股票和加密货币,以便能够赶在上涨前买入一波。

 

Martin Schmid,Rudolf Kadlec和Metej Moravcik三人在1月份辞职离开DeepMind后,就转而在捷克共和国的布拉格成立EquiLibre Technologies公司。

 

 

Martin Schmid任CEO,除了在DeepMind任过研究科学家外,还曾是IBM Watson的研究科学家,主要研究方向为算法博弈论和机器学习,在布拉格查尔斯大学获得博士学位。

 

Metej Moravcik任CSO,主要研究方向为游戏理论和强化学习。

 

Rudolf Kadlec任CTO,曾是DeepMind技术领导和高级研究工程师,IBM的高级研究科学家,研究内容曾被GPT模型采用。

 

这个三人组的特殊之处在于:2017年时,Schmid和Moravcik曾合作开发出DeepStack,为首个在德州扑克战胜人类职业玩家的AI系统。在DeepMind时,他们又共同写了一篇论文,也是首个在完美和不完美信息游戏中都表现出色的AI系统。

 

论文地址:https://arxiv.org/pdf/2112.03178.pdf

 

德州扑克是典型的不完美信息博弈游戏,在一对一无限注中包含10的160次方个决策点(decision points),每个点都根据出牌方的理解有不同的路径。

 

DeepStack 结合使用循环推理来处理信息不对称,使用分解将计算集中在相关的决策上,并且使用深度学习技术从单人游戏中自动学习的有关扑克任意状态的直觉形式。

 

也正是DeepStack的横空出世,让AI模型从此有了「直觉」。

 

 

而股票市场显然也是一种不完美信息博弈游戏,而且市场前景要比德州扑克更大,不过竞争对手显然也更多。

 

有相当多的从业者试图从各种不同的角度出发试图搭建一个更强大的AI交易系统:比如用NLP模型爬取金融的公开信息,对文章进行关系抽取判断市场的狂热和悲观情绪,对预期做出判断;

 

也有人采用先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种大概率事件以制定策略,如各种量化交易的模型等。

 

 

而这三人组则是想接着走DeepStack的老路,将原来模型中的一些想法、概念套用到金融市场里。

 

也就是说还用强化学习技术来训练AI系统做出购买和出售股票的决策以最大化利润,比如DeepStack是在扑克对局中取得优势就会获得reward,股票市场则是套利后获得reward,本质上都是一样的。

 

Schmid表示他并不担心监管机构会对这项技术进行制裁,因为其他公司已经在做类似的事情。

 

事实上,EquiLibre Technologies将与AI算法选股产品Candlestick和Yuyostox等进行竞争。

 

目前市场上大部分的交易都是算法化的,Schmid表示,他们想做的就是一个更好的算法而已。

 

 

一些风投机构已经为EquiLibre Technologies进行了投资,Schmid声称,这是捷克共和国有史以来最大的种子轮投资,但拒绝透露具体数字。

 

除了三人组以外,Schmid还透露DeepMind的员工之间有一个良好的技术联系网络,所以未来也有可能招聘其他的DeepMind员工进来。

 

AI和股票谁能赢?

 

德州扑克能战胜人类选手,股票和加密货币却未必。

 

德州扑克的决策相对股票来说要简单太多了,状态只与牌桌上的人和牌有关,而股票的涨跌就不只是来自市场的历史信息,也和多种外部因素有很大关系,比如长期来看企业的发展潜力,短期的话还包括政策导向、公司本身的财务、人事因素等等。

 

 

至于加密货币的预测则更难,有些新发行的加密货币由于主力都在庄家手中,所以涨跌不受市场控制,例如马斯克发一条推特,狗狗币立刻暴涨5倍;而马斯克做客综艺节目称其为「骗局」后,又暴跌40%,这些预测信息则是市场所无法反映的。

 

 

而就算AI模型在回测中表现非常好,应用到现实中也未必能赚钱;就算能赚到钱,也很难说是AI策略带来的正向收益,亦或是大的经济环境所带来的。

 

简单来说,股市是一个「有反馈的非线性系统」,而股票的涨跌现象是一种「混沌现象」。混沌现象是一个目前仍不可预测的东西,例如奶牛身上的花纹形状,天气的变化,心跳的波形,人脑的运行,海滩上乱石的现状,滩涂的形状等等都属于混沌现象。

 

 

我们能略知其一二,却永远无法精确地预测。

 

曾经有个段子,说是DeepMind在论文中公布,其开发的人工交易系统AlphaStock在中国A股潜伏36个月,经过不断的自我学习和进化,最终越亏越多,含泪出局。

 

有股民朋友表示,「大A默默无闻粉碎敌人一次资本暗战」,但也侧面体现出股市的预测有多难。

 

 

那是不是说股票就是完全不可预测?也未必,理论上还是可行的。

 

相比人类有限的精力和阅读速度来说,AI的一个优势就是可以处理海量的数据。

 

模型可以通过分析海量的数据进行预测,例如用情感分析技术对爬取的相关文本进行分析,得出市场的悲观或乐观态度,很多论文都是基于情感分析的基础上再加其他特征来提高准确率;也有人利用搜索引擎,通过搜索量的变化来预测;或是根据发推特的数量等信息进行预测,总之特征是多种多样的。

 

 

那强化学习会不会是预测股市的答案?强化学习与有监督的机器学习相比,不需要大型的带标签的数据集进行训练,并且也有许多显著优势:

 

1. 在许多复杂领域(如围棋、电竞游戏等)都已经被证明有超越人类玩家的潜力;

2. 可以通过奖励函数定义投资组合价值的变化,从而使投资组合价值随时间最大化,也符合投资的最终目标;

3. 强化学习模型可以在现实股市中不断学习,优化性能等。

 

当然了,什么模型其实都不重要,对于预测来说,最重要的还是输入的信息、数据一定是优质的。

 

garbage in garbage out是常态,但gold in garbage out也是常态,股票的混沌市场也许并不存在一招鲜,吃遍天。

 

 

因为市场并非是简单的预测,预测是基于历史的趋势,而短期的股票市场相当于「零和博弈」,不考虑手续费的情况下,赚的钱一定是其他人亏的钱,如果所有人都采用历史趋势进行预测,那所有人都赚不到钱。

 

所以模型想赚钱就得博弈,就得知道其他人在干什么,因为市场是由所有的参与者共同决定的。

 

最后,投资有风险,入市需谨慎。


参考资料:

https://www.cnbc.com/2022/04/05/deepmind-alum-want-to-make-an-ai-that-can-pick-stocks-and-crypto.html



登录查看更多
0

相关内容

【多智能体学习】DeepMind教程,231页PPT
专知会员服务
124+阅读 · 2022年3月25日
专知会员服务
57+阅读 · 2021年4月7日
专知会员服务
40+阅读 · 2021年2月12日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
玩桥牌,8位人类世界冠军,都输给了AI
大数据文摘
0+阅读 · 2022年4月1日
人类专业玩家水平!自动化所研发轻量型德州扑克AI程序AlphaHoldem
中国科学院自动化研究所
0+阅读 · 2021年12月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年8月19日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
Arxiv
14+阅读 · 2020年1月27日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【多智能体学习】DeepMind教程,231页PPT
专知会员服务
124+阅读 · 2022年3月25日
专知会员服务
57+阅读 · 2021年4月7日
专知会员服务
40+阅读 · 2021年2月12日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员