值迭代热门内容 - 专知

会员服务 ·

值迭代

独家 | 强化学习中的策略网络vs数值网络（附链接）

独家 | 强化学习中的策略网络vs数值网络（附链接）

数据派THU

4+阅读 · 2018年11月26日

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

专知

10+阅读 · 2017年10月22日

NIPS2018四篇最佳论文出炉，陈天琦、华为公司等获奖

NIPS2018四篇最佳论文出炉，陈天琦、华为公司等获奖

专知

1+阅读 · 2018年12月4日

强化学习 DQN 初探之2048

强化学习 DQN 初探之2048

DataFunTalk

7+阅读 · 2019年12月10日

GMIS 2017 | NIPS最佳论文作者之一吴翼：价值迭代网络

GMIS 2017 | NIPS最佳论文作者之一吴翼：价值迭代网络

机器之心

0+阅读 · 2017年5月28日

深度强化学习的 18 个关键问题讨论

深度强化学习的 18 个关键问题讨论

深度强化学习实验室

0+阅读 · 2018年6月20日

那些做成功的消费项目，是如何“裹住”用户需求的？

那些做成功的消费项目，是如何“裹住”用户需求的？

腾讯创业

0+阅读 · 2018年2月9日

【机器学习】马尔科夫决策过程

【机器学习】马尔科夫决策过程

AINLP

2+阅读 · 2020年1月28日

【直播】马腾宇，陶大程在 ICLR 2020 上做了什么研究？

【直播】马腾宇，陶大程在 ICLR 2020 上做了什么研究？

AI科技评论

0+阅读 · 2020年4月23日

为你分享73篇论文解决深度强化学习的18个关键问题

为你分享73篇论文解决深度强化学习的18个关键问题

数据派THU

7+阅读 · 2017年12月26日

魔方全能小王子降临：一个完全不依赖人类知识的AI

魔方全能小王子降临：一个完全不依赖人类知识的AI

量子位

0+阅读 · 2018年5月25日

【泡泡一分钟】用于避障的基于地图的深度模仿学习

【泡泡一分钟】用于避障的基于地图的深度模仿学习

泡泡机器人SLAM

8+阅读 · 2019年5月6日

学界 | 价值传播网络，在更复杂的动态环境中进行规划的方法

学界 | 价值传播网络，在更复杂的动态环境中进行规划的方法

机器之心

0+阅读 · 2018年6月21日

资源 | 价值迭代网络的PyTorch实现与Visdom可视化

资源 | 价值迭代网络的PyTorch实现与Visdom可视化

机器之心

0+阅读 · 2017年3月31日

如何从初入行者进阶为人工智能先锋青年？

如何从初入行者进阶为人工智能先锋青年？

机器之心

0+阅读 · 2017年5月23日

参考链接

微信扫码咨询专知VIP会员