会员服务 ·

DeepMind三人组挑战股市，曾开发出首个战胜职业玩家的德州扑克AI

2022 年 4 月 16 日 新智元

新智元报道

编辑：LRS

【新智元导读】首个战胜德州扑克职业玩家的AI系统，DeepStack的三位开发人员最近离职DeepMind，宣布将用强化学习技术征战股市，收获的种子轮融也是破了捷克共和国的纪录。

开发算法来自动买股票可以说是每个机器学习从业者都想干的事了，只要研究好策略，再训练一个模型，简直就是躺赚啊！

最近DeepMind的三位前员工也开始研究上了怎么自动买公司股票和加密货币，以便能够赶在上涨前买入一波。

Martin Schmid，Rudolf Kadlec和Metej Moravcik三人在1月份辞职离开DeepMind后，就转而在捷克共和国的布拉格成立EquiLibre Technologies公司。

Martin Schmid任CEO，除了在DeepMind任过研究科学家外，还曾是IBM Watson的研究科学家，主要研究方向为算法博弈论和机器学习，在布拉格查尔斯大学获得博士学位。

Metej Moravcik任CSO，主要研究方向为游戏理论和强化学习。

Rudolf Kadlec任CTO，曾是DeepMind技术领导和高级研究工程师，IBM的高级研究科学家，研究内容曾被GPT模型采用。

这个三人组的特殊之处在于：2017年时，Schmid和Moravcik曾合作开发出DeepStack，为首个在德州扑克战胜人类职业玩家的AI系统。在DeepMind时，他们又共同写了一篇论文，也是首个在完美和不完美信息游戏中都表现出色的AI系统。

论文地址：https://arxiv.org/pdf/2112.03178.pdf

德州扑克是典型的不完美信息博弈游戏，在一对一无限注中包含10的160次方个决策点（decision points），每个点都根据出牌方的理解有不同的路径。

DeepStack 结合使用循环推理来处理信息不对称，使用分解将计算集中在相关的决策上，并且使用深度学习技术从单人游戏中自动学习的有关扑克任意状态的直觉形式。

也正是DeepStack的横空出世，让AI模型从此有了「直觉」。

而股票市场显然也是一种不完美信息博弈游戏，而且市场前景要比德州扑克更大，不过竞争对手显然也更多。

有相当多的从业者试图从各种不同的角度出发试图搭建一个更强大的AI交易系统：比如用NLP模型爬取金融的公开信息，对文章进行关系抽取判断市场的狂热和悲观情绪，对预期做出判断；

也有人采用先进的数学模型替代人为的主观判断，利用计算机技术从庞大的历史数据中海选能带来超额收益的多种大概率事件以制定策略，如各种量化交易的模型等。

而这三人组则是想接着走DeepStack的老路，将原来模型中的一些想法、概念套用到金融市场里。

也就是说还用强化学习技术来训练AI系统做出购买和出售股票的决策以最大化利润，比如DeepStack是在扑克对局中取得优势就会获得reward，股票市场则是套利后获得reward，本质上都是一样的。

Schmid表示他并不担心监管机构会对这项技术进行制裁，因为其他公司已经在做类似的事情。

事实上，EquiLibre Technologies将与AI算法选股产品Candlestick和Yuyostox等进行竞争。

目前市场上大部分的交易都是算法化的，Schmid表示，他们想做的就是一个更好的算法而已。

一些风投机构已经为EquiLibre Technologies进行了投资，Schmid声称，这是捷克共和国有史以来最大的种子轮投资，但拒绝透露具体数字。

除了三人组以外，Schmid还透露DeepMind的员工之间有一个良好的技术联系网络，所以未来也有可能招聘其他的DeepMind员工进来。

AI和股票谁能赢？

德州扑克能战胜人类选手，股票和加密货币却未必。

德州扑克的决策相对股票来说要简单太多了，状态只与牌桌上的人和牌有关，而股票的涨跌就不只是来自市场的历史信息，也和多种外部因素有很大关系，比如长期来看企业的发展潜力，短期的话还包括政策导向、公司本身的财务、人事因素等等。

至于加密货币的预测则更难，有些新发行的加密货币由于主力都在庄家手中，所以涨跌不受市场控制，例如马斯克发一条推特，狗狗币立刻暴涨5倍；而马斯克做客综艺节目称其为「骗局」后，又暴跌40%，这些预测信息则是市场所无法反映的。

而就算AI模型在回测中表现非常好，应用到现实中也未必能赚钱；就算能赚到钱，也很难说是AI策略带来的正向收益，亦或是大的经济环境所带来的。

简单来说，股市是一个「有反馈的非线性系统」，而股票的涨跌现象是一种「混沌现象」。混沌现象是一个目前仍不可预测的东西，例如奶牛身上的花纹形状，天气的变化，心跳的波形，人脑的运行，海滩上乱石的现状，滩涂的形状等等都属于混沌现象。

我们能略知其一二，却永远无法精确地预测。

曾经有个段子，说是DeepMind在论文中公布，其开发的人工交易系统AlphaStock在中国A股潜伏36个月，经过不断的自我学习和进化，最终越亏越多，含泪出局。

有股民朋友表示，「大A默默无闻粉碎敌人一次资本暗战」，但也侧面体现出股市的预测有多难。

那是不是说股票就是完全不可预测？也未必，理论上还是可行的。

相比人类有限的精力和阅读速度来说，AI的一个优势就是可以处理海量的数据。

模型可以通过分析海量的数据进行预测，例如用情感分析技术对爬取的相关文本进行分析，得出市场的悲观或乐观态度，很多论文都是基于情感分析的基础上再加其他特征来提高准确率；也有人利用搜索引擎，通过搜索量的变化来预测；或是根据发推特的数量等信息进行预测，总之特征是多种多样的。

那强化学习会不会是预测股市的答案？强化学习与有监督的机器学习相比，不需要大型的带标签的数据集进行训练，并且也有许多显著优势：

1. 在许多复杂领域（如围棋、电竞游戏等）都已经被证明有超越人类玩家的潜力；

2. 可以通过奖励函数定义投资组合价值的变化，从而使投资组合价值随时间最大化，也符合投资的最终目标；

3. 强化学习模型可以在现实股市中不断学习，优化性能等。

当然了，什么模型其实都不重要，对于预测来说，最重要的还是输入的信息、数据一定是优质的。

garbage in garbage out是常态，但gold in garbage out也是常态，股票的混沌市场也许并不存在一招鲜，吃遍天。

因为市场并非是简单的预测，预测是基于历史的趋势，而短期的股票市场相当于「零和博弈」，不考虑手续费的情况下，赚的钱一定是其他人亏的钱，如果所有人都采用历史趋势进行预测，那所有人都赚不到钱。

所以模型想赚钱就得博弈，就得知道其他人在干什么，因为市场是由所有的参与者共同决定的。

最后，投资有风险，入市需谨慎。

参考资料：

https://www.cnbc.com/2022/04/05/deepmind-alum-want-to-make-an-ai-that-can-pick-stocks-and-crypto.html

登录查看更多

相关内容

DeepMind

关注 2

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

32+阅读 · 2022年5月6日

【AI+军事】附论文《对抗人工智能: 通过基于ai战略游戏，在攻防游戏中开发对抗攻击的鲁棒性》

专知会员服务

72+阅读 · 2022年4月29日

【多智能体学习】DeepMind教程，231页PPT

专知会员服务

128+阅读 · 2022年3月25日

【DeepMind教程】蒙特卡罗树搜索，60页ppt

专知会员服务

59+阅读 · 2021年4月7日

AAAI 2021 | 稀疏胜负多智能体博弈中的纳什均衡解计算

专知会员服务

41+阅读 · 2021年2月12日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知会员服务

59+阅读 · 2020年12月9日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

DeepMind爆发史：决定AI高峰的“游戏玩家”｜深度学习崛起十年

THU数据派

0+阅读 · 2022年4月27日

在游戏世界组建一支AI团队、赢取2万美元，超参数的多智能体「大乱斗」开赛

机器之心

0+阅读 · 2022年4月14日

玩桥牌，8位人类世界冠军，都输给了AI

大数据文摘

0+阅读 · 2022年4月1日

DeepMind 押注博弈人工智能系统，在扑克、国际象棋、围棋等游戏中表现出色

AI前线

3+阅读 · 2022年2月16日

弯道极限超车、击败人类顶级玩家，索尼AI赛车手登上Nature封面

机器之心

0+阅读 · 2022年2月10日

模仿并超越人类围棋手，KL正则化搜索让AI下棋更像人类，Meta&CMU出品

量子位

1+阅读 · 2021年12月17日

达到人类专业玩家水平，中科院自动化所研发轻量型德州扑克AI程序AlphaHoldem

机器之心

3+阅读 · 2021年12月16日

在《我的世界》当矿工，腾讯「绝悟」夺冠NeurIPS MineRL 挑战赛

机器之心

0+阅读 · 2021年12月11日

人类专业玩家水平！自动化所研发轻量型德州扑克AI程序AlphaHoldem

中国科学院自动化研究所

0+阅读 · 2021年12月10日

蒙特卡洛树搜索加冕《指环王》! 游戏越复杂，AI越厉害

THU数据派

0+阅读 · 2021年10月12日

界面调控常规半导体拓扑绝缘体相变

国家自然科学基金

0+阅读 · 2015年12月31日

供应商入侵下考虑成员风险规避行为的供应链决策与协调研究

国家自然科学基金

0+阅读 · 2014年12月31日

中国上市公司内部控制溢价度量模型及实证研究

国家自然科学基金

0+阅读 · 2012年12月31日

Markov状态转换下的跳扩散风险理论的新模型与新算法

国家自然科学基金

1+阅读 · 2012年12月31日

新媒体冲击、公司治理与上市公司财务欺诈行为

国家自然科学基金

0+阅读 · 2012年12月31日

非期望效用与纳什均衡- - 基于行为决策理论视角

国家自然科学基金

4+阅读 · 2012年12月31日

直觉型偏好群体共识决策理论与方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

供应链突发风险“情景-应对”型应急决策研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于风险偏好的模糊博弈及宁夏煤炭资源开发与环境保护最优策略研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于贝叶斯网络的排列算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Robust Adversarial Attacks Detection based on Explainable Deep Reinforcement Learning For UAV Guidance and Planning

Arxiv

0+阅读 · 2022年6月7日

Contrastive Learning for Cross-Domain Open World Recognition

Arxiv

0+阅读 · 2022年6月6日

APES: Articulated Part Extraction from Sprite Sheets

Arxiv

0+阅读 · 2022年6月4日

Trustworthy AI: A Computational Perspective

Arxiv

12+阅读 · 2021年8月19日

Cold-start Sequential Recommendation via Meta Learner

Arxiv

15+阅读 · 2020年12月10日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员