成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
赛车版「末日人机」上演速度与激情!索尼赛车游戏专业玩家被AI虐了
2020 年 8 月 27 日
新智元
新智元报道
来源:reddit
编辑:小匀
【新智元导读】
人机大战是目前最有看头的比赛了!最近,阿尔法狗斗战胜人类飞行员,不过还好,在赛车游戏中,我们人类玩家一直是很厉害的。但是近期,来自瑞士的研究人员利用深度强化学习(Deep Reinforcement Learning)玩了把赛车,估计又要让人类黯然失色了……
听说最近AI又战胜人类了?
美国DARPA「阿尔法狗斗」挑战赛决赛,由AI算法操控的虚拟飞机超过人类飞行员,以5:0
获胜
!
说到人机大战,还记得当年LOL英雄联盟出的
末日人机
吗?
与超级机器对决,有多少黄铜选手高呼:我太南了!
这些都还是小事儿,如果你遇见了一位更狠的「王者」——
深度强化学习(DRL)……
深度强化学习在很多决策领域当中都取得了比较不错的结果,
尤其是在游戏
,多个游戏已
经达到甚至是超过了
人类水平。
基于深度强化学习,
DeepMind研发的AlphaGo Zero
在不使用任何人类围棋数据的前提下,在围棋上完全完虐人类;
OpenAI研发的Dota Five
则在Dota游戏上达到了人类玩家的顶尖水平;
DeepMind研发的AlphaStar
在星际争霸游戏上同样击败了人类职业玩家。
这些都是深深「伤害」游戏玩家的深度强化学习实例。
赛车版「末日人机」
无论是在真实的道路上还是在模拟环境中,高速驾驶都是一项极具挑战性的任务,因为它要求驾驶员
快、准、狠
。同时,还要将车子的物理性能发挥到极致。
尽管DRL也在曾在模拟自动驾驶中得到了成功应用,
但在速度方面,目前没人能超过人类玩家。
直到最近,来自瑞士苏黎世大学和苏黎世联邦理工学院的研究人员训练的
深度强化学习(DRL) 智能体
打破了这一局面。
研究人员选择了2017年索尼的热门赛车游戏
gt Sport (GTS)
, 这款游戏深受玩家喜爱,车型又多,轨道又炫!
研究人员选择了下图这款:奥迪TT CUP。
Deep RL,速度超越人类玩家
一般来说,算法在赛车领域的研究工作可以分为
三类
:
(i) 依赖轨迹规划和控制的经典方法
(ii) 监督学习方法
(iii) 强化学习方法
与以往不同,研究人员利用DRL来训练一种深度感觉运动策略,
这种策略可以直接从观察结果映射到控制命令
。
首先,
研究人员
定义了一个用于制定赛车问题的奖励函数,相应地,一个神经网络策略将输入状态映射到动作。
当智能体学习使用不同的汽车高速在不同的轨道上自动驾驶时,通过最大的奖励函数来优化策略参数。
系统概述图
他们的目标是建立一个
神经网络控制器
,能够在不了解赛车动力学的情况下自动驾驶赛车,并让它在
「不撞到赛道墙」
的情况下尽可能快地跑完一圈。
专业玩家不服来战?
为让大家有一个清晰的认识,研究人员
邀请了Gran Turismo领域
的
专家TG
(匿名),与ta来了个在线对决。
显然,
DRL超越了TG
,率先进入了隧道。
(左图)来自70个国家的50,000多名人类玩家的个人最佳单圈时间(深蓝色直方图),以及内置的非玩家角色(黄线)。(为了简化,超过100秒的人圈时间被省略了)
(右图)10个最快的人类车手的一圈时间和我们的接近。
在实验中,
DRL击败了内置的npc
(非玩家控制角色),并
超过了50,000名
人类玩家个人
最佳
圈速。
评分表
ps:普遍认为,现代赛车游戏中内置的NPC是无法与人类公平竞争的。例如,与最快的人类车手相比,GTS中当前内置的NPC总共会损失11秒,在本次的参考设置中,NPC比所有人类车手的速度慢83%。
万一有人拿DRL开挂咋办?
研究人员认为,将要归因于智能体能够
自学轨迹
,这些轨迹在性质上与最优秀的人类选手所选择的轨迹相似,而且还能在转弯时保持稍高的速度。
t时刻的赛道进度cpt是通过将赛车的位置投射在赛道的中心线上来构建的
包括培训和评估,该团队用了不到73个小时就完成了DRL测试。尽管他们的研究仅限于没有其他赛车在赛道上进行的计时测试,但该团队计划使用更数据效率高的RL算法,如meta-RL,以迎接更多的「速度与激情」。
不过也有网友表示担忧,万一以后
有人「开挂」咋办
?
「这简直是疯了……另一方面,这可能会被用来作弊。」
「我从没想过在赛车游戏中会有人作弊,但现在看来可能性越来越大。」
的确有这样的危险,但游戏世界,最讲究的就是公平,玩家们的自律是最重要的!
研究已经在
arXiv
上发布。
参考链接:
https://arxiv.org/pdf/2008.07971.pdf
https://www.youtube.com/watch?v=Zeyv1bN9v4A
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
深度强化学习
关注
153
深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解
专知会员服务
79+阅读 · 2020年7月2日
高效医疗图像分析的统一表示
专知会员服务
34+阅读 · 2020年6月23日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
专知会员服务
50+阅读 · 2020年5月23日
YOLOv4 重磅来袭!俄罗斯小哥带来新一代快速高效检测器
专知会员服务
31+阅读 · 2020年4月24日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练,Visual Pre-training
专知会员服务
14+阅读 · 2020年3月21日
Gary Marcus力作:AI的下个十年,向‘强’人工智能迈进的四步战略(附59页论文下载)
专知会员服务
38+阅读 · 2020年2月20日
【强化学习轻松入门】《Reinforcement Learning 101》,Shweta Bhatt
专知会员服务
48+阅读 · 2020年1月3日
【强化学习】深度强化学习初学者指南
专知会员服务
180+阅读 · 2019年12月14日
【元学习 | 论文】CoRL19,元世界:多任务和元强化学习的基准和评估,伯克利分校,Google
专知会员服务
26+阅读 · 2019年11月21日
AI魔方大师:1.2秒解魔方超世界纪录2倍,平均移动28步
智东西
3+阅读 · 2019年7月17日
用意念控制无人机,脑电波黑科技将在零一科技节震撼亮相
无人机
5+阅读 · 2018年7月22日
Atari联合创始人去世,为什么游戏对AI很重要?
新智元
3+阅读 · 2018年6月4日
重磅!刘强东宣布:京东将减员50%,AI的应用使员工每天工作3小时!无人公司来了……
大数据技术
5+阅读 · 2018年5月15日
人工智能的热点:深度强化学习正成为通往通用AI的关键
DeepTech深科技
4+阅读 · 2018年4月11日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
人工智能:英、中、美上演“三国演义”
专知
4+阅读 · 2018年1月27日
深度强化学习入门:用TensorFlow构建你的第一个游戏AI丨数据工匠简报
Datartisan数据工匠
7+阅读 · 2017年11月20日
教程 | 深度强化学习入门:用TensorFlow构建你的第一个游戏AI
机器之心
6+阅读 · 2017年11月16日
Communication-Computation Trade-Off in Resource-Constrained Edge Inference
Arxiv
0+阅读 · 2020年10月14日
Extended Koopman Models
Arxiv
0+阅读 · 2020年10月14日
A numerical study of the pollution error and DPG adaptivity for long waveguide simulations
Arxiv
0+阅读 · 2020年10月14日
Optimization in a non-linear Lanchester-type model involving supply units
Arxiv
0+阅读 · 2020年10月10日
Narrowband Internet of Things for Non-terrestrial Networks
Arxiv
0+阅读 · 2020年10月10日
Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
Arxiv
15+阅读 · 2020年7月1日
Principal Neighbourhood Aggregation for Graph Nets
Arxiv
17+阅读 · 2020年6月7日
SFA: Small Faces Attention Face Detector
Arxiv
4+阅读 · 2018年12月20日
Quantizing deep convolutional networks for efficient inference: A whitepaper
Arxiv
6+阅读 · 2018年6月21日
Eigenoption Discovery through the Deep Successor Representation
Arxiv
3+阅读 · 2018年1月30日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
深度强化学习
强化学习
人机大战
索尼 (Sony)
DeepMind
AlphaGo Zero
相关VIP内容
【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解
专知会员服务
79+阅读 · 2020年7月2日
高效医疗图像分析的统一表示
专知会员服务
34+阅读 · 2020年6月23日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
专知会员服务
50+阅读 · 2020年5月23日
YOLOv4 重磅来袭!俄罗斯小哥带来新一代快速高效检测器
专知会员服务
31+阅读 · 2020年4月24日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练,Visual Pre-training
专知会员服务
14+阅读 · 2020年3月21日
Gary Marcus力作:AI的下个十年,向‘强’人工智能迈进的四步战略(附59页论文下载)
专知会员服务
38+阅读 · 2020年2月20日
【强化学习轻松入门】《Reinforcement Learning 101》,Shweta Bhatt
专知会员服务
48+阅读 · 2020年1月3日
【强化学习】深度强化学习初学者指南
专知会员服务
180+阅读 · 2019年12月14日
【元学习 | 论文】CoRL19,元世界:多任务和元强化学习的基准和评估,伯克利分校,Google
专知会员服务
26+阅读 · 2019年11月21日
热门VIP内容
开通专知VIP会员 享更多权益服务
深度感知:军事决策的下一个前沿
《美国海军海洋体系司令部计划执行办公室(PEO)航空母舰》最新46也slides
《协作平台和对抗性中空长航时(MALE)无人机》最新34页报告
《海洋运输系统弹性评估:指南》最新180页
相关资讯
AI魔方大师:1.2秒解魔方超世界纪录2倍,平均移动28步
智东西
3+阅读 · 2019年7月17日
用意念控制无人机,脑电波黑科技将在零一科技节震撼亮相
无人机
5+阅读 · 2018年7月22日
Atari联合创始人去世,为什么游戏对AI很重要?
新智元
3+阅读 · 2018年6月4日
重磅!刘强东宣布:京东将减员50%,AI的应用使员工每天工作3小时!无人公司来了……
大数据技术
5+阅读 · 2018年5月15日
人工智能的热点:深度强化学习正成为通往通用AI的关键
DeepTech深科技
4+阅读 · 2018年4月11日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
人工智能:英、中、美上演“三国演义”
专知
4+阅读 · 2018年1月27日
深度强化学习入门:用TensorFlow构建你的第一个游戏AI丨数据工匠简报
Datartisan数据工匠
7+阅读 · 2017年11月20日
教程 | 深度强化学习入门:用TensorFlow构建你的第一个游戏AI
机器之心
6+阅读 · 2017年11月16日
相关论文
Communication-Computation Trade-Off in Resource-Constrained Edge Inference
Arxiv
0+阅读 · 2020年10月14日
Extended Koopman Models
Arxiv
0+阅读 · 2020年10月14日
A numerical study of the pollution error and DPG adaptivity for long waveguide simulations
Arxiv
0+阅读 · 2020年10月14日
Optimization in a non-linear Lanchester-type model involving supply units
Arxiv
0+阅读 · 2020年10月10日
Narrowband Internet of Things for Non-terrestrial Networks
Arxiv
0+阅读 · 2020年10月10日
Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
Arxiv
15+阅读 · 2020年7月1日
Principal Neighbourhood Aggregation for Graph Nets
Arxiv
17+阅读 · 2020年6月7日
SFA: Small Faces Attention Face Detector
Arxiv
4+阅读 · 2018年12月20日
Quantizing deep convolutional networks for efficient inference: A whitepaper
Arxiv
6+阅读 · 2018年6月21日
Eigenoption Discovery through the Deep Successor Representation
Arxiv
3+阅读 · 2018年1月30日
大家都在搜
洛克菲勒
palantir
大规模语言模型
生成式人工智能
CMU博士论文
自主可控
国家自然科学基金
高频交易
机器学习平台建设
转化率预估(pCVR)系列
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top