策略迭代热门内容 - 专知

会员服务 ·

策略迭代

独家 | 强化学习中的策略网络vs数值网络（附链接）

独家 | 强化学习中的策略网络vs数值网络（附链接）

数据派THU

4+阅读 · 2018年11月26日

美团配送A/B评估体系建设与实践

美团配送A/B评估体系建设与实践

DataFunTalk

1+阅读 · 2020年6月9日

恒瑞医药分析及股东大会小记

恒瑞医药分析及股东大会小记

雪球

0+阅读 · 2019年3月10日

AI 系统「失控」？ Facebook 背后超乎想象的人工智能不只有智能对话机器人

AI 系统「失控」？ Facebook 背后超乎想象的人工智能不只有智能对话机器人

拓扑社

0+阅读 · 2017年8月4日

Nature2017| AlphaGo Zero强化学习论文解读系列(二)

Nature2017| AlphaGo Zero强化学习论文解读系列(二)

AINLP

2+阅读 · 2020年12月4日

【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习

【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习

新智元

0+阅读 · 2017年10月27日

强化学习 DQN 初探之2048

强化学习 DQN 初探之2048

DataFunTalk

7+阅读 · 2019年12月10日

配送交付时间轻量级预估实践

配送交付时间轻量级预估实践

美团技术团队

0+阅读 · 2019年10月10日

外卖排序系统特征生产框架

外卖排序系统特征生产框架

美团技术团队

0+阅读 · 2016年12月9日

这事儿，搞不好会比硬盘坏了还要坏！

这事儿，搞不好会比硬盘坏了还要坏！

华商韬略

1+阅读 · 2017年12月2日

详解蒙特卡洛方法：这些数学你搞懂了吗？

详解蒙特卡洛方法：这些数学你搞懂了吗？

MOOC

1+阅读 · 2018年6月13日

学界 | 如何设计奖励函数

学界 | 如何设计奖励函数

机器之心

0+阅读 · 2017年3月15日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2022ASU课程，(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2022ASU课程，(附书稿PDF&讲义)

专知

3+阅读 · 2022年4月17日

Facebook关闭“失控” AI 项目：发展出人类无法理解的语言！

Facebook关闭“失控” AI 项目：发展出人类无法理解的语言！

全球人工智能

0+阅读 · 2017年7月31日

专栏 | AlphaGo Zero：笔记与伪代码

专栏 | AlphaGo Zero：笔记与伪代码

机器之心

2+阅读 · 2017年11月2日

参考链接

微信扫码咨询专知VIP会员