你玩《2048》能拿多少分？AI的最高分纪录：401912

会员服务 ·

你玩《2048》能拿多少分？AI的最高分纪录：401912

2020 年 6 月 23 日 量子位

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

如果让AI来玩《2048》这样的游戏，那会是怎样一种画面？

现在，有人用强化学习方法实践了起来。

于是，插上DQN的翅膀，AI从零起步，自己琢磨出了《2048》的玩法：

一起手，是不是就有内味了？

这操作，条理清晰到令人感到舒适。“1000，no；1024，yes”的强迫症们不禁纷纷点赞，给这只AI贡献了800+ reddit热度。

用DQN玩《2048》

调教出这只会玩《2048》的AI的，是一位巴西老哥Felipe Marcelino。目前正在米纳斯吉拉斯联邦大学攻读CS硕士。

首先，他采用OpenAI Gym构建了自定义强化学习环境。

其中包括两种2048棋盘表示方式：

二进制——使用二次幂矩阵表示棋盘中的每一块区域
非二进制——原始数字矩阵

模型包含两种类型的神经网络：CNN和MLP（多层感知机）。

据Felipe介绍，与MLP相比，以CNN作为特征提取器的智能体表现得更好。

训完之后，老哥测试了一下，在1000把游戏中，AI有100次达到了2048。

玩《2048》的AI们

目前，这只用DQN训练出的AI玩到2048就打住了。

不过，巴西老哥抛砖，又吸引了不少来献玉的盆友。

比如，同样采用强化学习方法，将时序差分学习和最大期望搜索相结合的2048控制器。

在10步/秒的策略下，它最高能凑出32768。

而在追求高分的路上，有一位来自日本的选手表现亮眼。

依靠7个卷积层的深度卷积网络，这只在《2048》这个游戏中最高拿到了401912分。

正如一位网友所说：这正是一个足够有趣，又不太复杂的强化学习案例。

如果你是刚刚开始学习强化学习，也不妨拿这个小项目练练手~

参考链接

《2048》相关开源项目：
https://github.com/FelipeMarcelino/2048-gym
https://github.com/aszczepanski/2048
https://github.com/thomasahle/mcts-2048/

相关论文：
https://www.jstage.jst.go.jp/article/ipsjjip/27/0/27_340/_pdf
http://arxiv.org/abs/1604.05085

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

「数据库」系列公开课开启，快来免费报名！

6月23号第二期直播，浪潮信息数据库产品线总经理--乔鑫分享「传统企业互联网下的数据平台升级」，将讲述HTAP数据库的技术原理、优化方案以及开发部署概要等技术问题，以此带给广泛关注者一些前瞻指导。

扫码报名，可加入直播交流群，还可获取系列课程直播回放、分享PPT：

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

DQN

关注 0

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

66+阅读 · 2020年8月22日

一图搞定ML！2020版机器学习技术路线图，35页ppt

专知会员服务

94+阅读 · 2020年7月28日

【开放书-纽约大学】面向数据科学的概率与统计，237页pdf

专知会员服务

149+阅读 · 2020年7月6日

【CVPR2020】如何写好一篇顶会论文？34页ppt，MIT&Google视觉大佬Bill Freeman亲授讲解

专知会员服务

97+阅读 · 2020年6月17日

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

「强化学习之路」清华博士后解读83篇文献，万字长文总结

专知会员服务

67+阅读 · 2020年2月28日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

【ICML 2019 | 元学习教程】伯克利Chelsea Finn、Sergey Levine主讲，附111PDF

专知会员服务

54+阅读 · 2019年11月12日

UC伯克利最新深度强化学习课程上线，视频已上传到B站

量子位

6+阅读 · 2019年10月2日

ICML 2019必看！87页超强干货博士笔记总结

新智元

35+阅读 · 2019年6月17日

ICML 2019全纪录：论文解读、workshop讨论、核心知识都在这里了

量子位

8+阅读 · 2019年6月17日

ICCV 2019论文投稿数破纪录，中科院、清华名列前茅，苹果垫底

AI100

6+阅读 · 2019年3月25日

斯坦福新模型刷新纪录：自然语言理解 GLUE 排行榜最高分！

新智元

4+阅读 · 2019年3月23日

突发！李飞飞下半年或将从谷歌离职，重返斯坦福

AI前线

4+阅读 · 2018年6月28日

分享 | 李飞飞斯坦福CS231n，原来学霸们都是这么学的

AI科技评论

4+阅读 · 2018年4月1日

谷歌开源语义图像分割模型DeepLab-v3+ | 附代码

量子位

3+阅读 · 2018年3月13日

干货|低调现身北京的吴恩达，刚刚给人工智能公司下了个定义

机器人大讲堂

3+阅读 · 2018年2月5日

AI都干过什么让人细思极恐的事？

全球创新论坛

4+阅读 · 2017年9月15日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

8+阅读 · 2019年5月20日

Do deep reinforcement learning agents model intentions?

Arxiv

5+阅读 · 2018年5月21日

Convolutional CRFs for Semantic Segmentation

Arxiv

8+阅读 · 2018年5月15日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

Improving Word Vector with Prior Knowledge in Semantic Dictionary

Arxiv

6+阅读 · 2018年1月27日

VIP会员