ICML 2020线上分享 | Google AI：如何用ConQUR算法解决强化学习在应用落地上的难题？ - 专知

会员服务 ·

0

ICML 2020线上分享 | Google AI：如何用ConQUR算法解决强化学习在应用落地上的难题？

2020 年 7 月 11 日 机器之心

ICM L（International Conference on Machine Learning）是国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议，每年都会吸引大批 ML 研究者参加。

受到疫情影响，今年的 ICML 大会已经改为在 2020 年 7 月 13 日至 18 日线上举行。

据官方统计，ICML 2020 共收到 4990 篇论文投稿，最后接收论文 1088 篇，接收率为 21.8%。与往年相比，接收率逐年走低。

为向读者们分享更多 ICML 的优质内容，在大会开幕之前，机器之心将策划多期线上分享。

这是机器之心 ICML 2020 线上分享的第一期，我们邀请到了普林斯顿大学在读博士生 DiJia Su 为我们分享他们今年被接收的最新论文：《ConQUR: Mitigating Delusional Bias in Deep Q-learning》

Google AI 如何用 ConQUR 算法解决强化学习在应用落地上的难题

讲师简介： DiJia Su(苏迪加) ，本论文的第一作者，目前在普林斯顿大学攻读博士，研究方向是人工智能与强化学习。他本科毕业于 UBC 工程系，后在加州理工获得了硕士学位，曾在 Amazon AI，Uber AI Lab 与 Google AI Lab 担任过人工智能研究员。Dijia Su 平时也积极参与普林中国学生会，担任副主席的职位。

演讲概要： 众所周知，强化学习在应用落地和理论之间存在巨大的偏差，理想很美好，现实很骨感。作者与 Google AI 团队围绕这个复杂的问题上提出了 ConQUR 算法框架，有效地解决强化学习在部署落地中面临的各种问题。

在实际应用场景中，深度学习，神经网络与 Q-learning 的结合会导致其在某种状态 (state) 采取「非合理」的动作。在这次演讲中，作者将讲解如何通过修改一行代码从而实现强化学习 (Q-learning 或相关算法) 性能上显著的提高。此论文为 NeurIPS 2018 Best Paper (Non delusional Q-Learning)的延续。作者也将分享他是如何与原版人马打造 ConQUR 算法并通过现实应用场景，结果强化学习落地的难题。

论文链接： https://arxiv.org/pdf/2002.12399.pdf

直播时间：7 月 14 日 20:00-21:00

ICML 2020 机器之心线上分享

在 ICML 2020 收录的大量优秀论文中，我们将选出数篇优质论文，邀请论文作者来做线上分享。整场分享包括两个部分：论文解读和互动答疑。

线上分享将在「ICML 2020 交流群」中进行，加群方式：添加机器之心小助手（syncedai6），备注「ICML」，邀请入群。入群后将会公布直播链接。

登录查看更多

0

相关内容

ICML

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议。

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

【经典】吴恩达《机器学习落地应用指南》，30页ppt 26/64

【经典】吴恩达《机器学习落地应用指南》，30页ppt 26/64

专知会员服务

44+阅读 · 2020年7月25日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【强化学习最新综述】详解强化学习当前进展及未来方向

专知会员服务

238+阅读 · 2020年1月23日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

机器之心

11+阅读 · 2019年11月21日

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

机器之心

8+阅读 · 2019年11月13日

NeurIPS 2019 论文线上分享 | 清华大学Spotlight：不完备专家演示下的模仿学习

NeurIPS 2019 论文线上分享 | 清华大学Spotlight：不完备专家演示下的模仿学习

机器之心

3+阅读 · 2019年11月8日

数千人顶会的干货，ICML、CVPR2019演讲视频资源在此

数千人顶会的干货，ICML、CVPR2019演讲视频资源在此

机器之心

9+阅读 · 2019年7月8日

ICML 2019必看！87页超强干货博士笔记总结

ICML 2019必看！87页超强干货博士笔记总结

新智元

35+阅读 · 2019年6月17日

ICML2019：Google和Facebook在推进哪些方向？

ICML2019：Google和Facebook在推进哪些方向？

专知

5+阅读 · 2019年6月13日

大讲堂 | 深度强化学习在电商推荐中的应用

大讲堂 | 深度强化学习在电商推荐中的应用

AI研习社

9+阅读 · 2018年11月8日

ICLR 2019论文投稿近1600篇，强化学习最热门

ICLR 2019论文投稿近1600篇，强化学习最热门

AI100

5+阅读 · 2018年9月28日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

干货 | 算法工程师入门第二期——穆黎森讲增强学习（二）

干货 | 算法工程师入门第二期——穆黎森讲增强学习（二）

数盟

4+阅读 · 2017年7月20日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Arxiv

6+阅读 · 2018年6月7日

Generative Adversarial Image Synthesis with Decision Tree Latent Controller

Arxiv

5+阅读 · 2018年5月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

SQL-Rank: A Listwise Approach to Collaborative Ranking

Arxiv

6+阅读 · 2018年2月28日

ADMM-based Networked Stochastic Variational Inference

Arxiv

3+阅读 · 2018年2月27日

Deep Gaussian Embedding of Graphs: Unsupervised Inductive Learning via Ranking

Arxiv

5+阅读 · 2018年2月27日

VIP会员

相关主题

相关VIP内容

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

【经典】吴恩达《机器学习落地应用指南》，30页ppt 26/64

【经典】吴恩达《机器学习落地应用指南》，30页ppt 26/64

专知会员服务

44+阅读 · 2020年7月25日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【强化学习最新综述】详解强化学习当前进展及未来方向

专知会员服务

238+阅读 · 2020年1月23日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

【强化学习研讨会|Microsoft Research】安全公平的机器学习（Safe and Fair Machine Learning）

专知会员服务

16+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

机器之心

11+阅读 · 2019年11月21日

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

机器之心

8+阅读 · 2019年11月13日

NeurIPS 2019 论文线上分享 | 清华大学Spotlight：不完备专家演示下的模仿学习

NeurIPS 2019 论文线上分享 | 清华大学Spotlight：不完备专家演示下的模仿学习

机器之心

3+阅读 · 2019年11月8日

数千人顶会的干货，ICML、CVPR2019演讲视频资源在此

数千人顶会的干货，ICML、CVPR2019演讲视频资源在此

机器之心

9+阅读 · 2019年7月8日

ICML 2019必看！87页超强干货博士笔记总结

ICML 2019必看！87页超强干货博士笔记总结

新智元

35+阅读 · 2019年6月17日

ICML2019：Google和Facebook在推进哪些方向？

ICML2019：Google和Facebook在推进哪些方向？

专知

5+阅读 · 2019年6月13日

大讲堂 | 深度强化学习在电商推荐中的应用

大讲堂 | 深度强化学习在电商推荐中的应用

AI研习社

9+阅读 · 2018年11月8日

ICLR 2019论文投稿近1600篇，强化学习最热门

ICLR 2019论文投稿近1600篇，强化学习最热门

AI100

5+阅读 · 2018年9月28日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

干货 | 算法工程师入门第二期——穆黎森讲增强学习（二）

干货 | 算法工程师入门第二期——穆黎森讲增强学习（二）

数盟

4+阅读 · 2017年7月20日

相关论文

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Arxiv

6+阅读 · 2018年6月7日

Generative Adversarial Image Synthesis with Decision Tree Latent Controller

Arxiv

5+阅读 · 2018年5月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

SQL-Rank: A Listwise Approach to Collaborative Ranking

Arxiv

6+阅读 · 2018年2月28日

ADMM-based Networked Stochastic Variational Inference

Arxiv

3+阅读 · 2018年2月27日

Deep Gaussian Embedding of Graphs: Unsupervised Inductive Learning via Ranking

Arxiv

5+阅读 · 2018年2月27日

大家都在搜

软件无线电

大型语言模型

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员