强化学习基础-对偶梯度上升 - 专知

会员服务 ·

0

强化学习基础-对偶梯度上升

2019 年 1 月 26 日 AI研习社

本文为 AI 研习社编译的技术博客，原标题：

The base of deep reinforcement-learning-Dual Gradient Descent

作者 | Jonathan Hui

翻译 | 斯蒂芬•二狗子

校对 | 斯蒂芬•二狗子审核| 莫青悠整理 | 菠萝妹

原文链接：

https://medium.com/@jonathan_hui/rl-dual-gradient-descent-fac524c1f049

注：本文的相关链接请点击文末【阅读原文】进行访问

强化学习基础-对偶梯度上升

对偶梯度下降是一个优化带约束目标函数的常用方法。在强化学习中，该方法可以帮助我们做出更好的决策。

该方法的核心思想是把目标函数转换为可以迭代优化拉格朗日对偶函数。其中拉格朗日函数 𝓛 和拉格朗日对偶函数 g 定义为：

其中标量 λ 被称为拉格朗日乘子。

对偶函数 g 是原始优化问题的下限，实际上，若 f 是凸函数，g和f保持强对偶关系，即g函数的最大值等价于优化问题的最小。只要找到使得g最大的 λ ，我们就解决了原始优化问题。

所以，我们随机指定 λ 为初始值，使用优化方法解决这个无约束的g(λ)。

接下来，我们将应用梯度上升来更新 λ 以便最大化g。 g的梯度是：

即为

在下面的步骤1中，我们根据当前的 λ 值找到最小x，然后我们对g进行梯度上升（步骤2和3）。

先最小化带有原始x变量的拉格朗日𝓛，再用梯度法更新拉格朗日乘子 λ ，不断交替着进行这两种计算。通过这样重复迭代，λ、x将收敛。

可视化

让我们想象一下这个算法是如何工作的。

Modified from source

设 y = g(x)， z = f(x)。y 和 z 在来自于空间 G ，我们画出了与y对应的z。我们的解是上面的橙色的点：空间 G上的最小f同时满足g(x)= 0。下面的橙色线是拉格朗日函数。它的斜率等于λ，它接触G的边界。

然后我们使用梯度上升来调整 λ（斜率），以获得与 g(x)= 0 接触G的最大值 f(x) 。

Modified from source

这就是对偶梯度上升法的工作原理。（PPT）

示例

让我们通过一个示例来分析如何求解的。

拉格朗日乘子

那么，拉格朗日乘子是什么？我们可以使用不同d值的等高线图可视化f函数。g是约束函数。

其中 λ 是拉格朗日乘子

思考

对偶梯度下降可以使用任何优化方法来最小化具有λ值的拉格朗日函数。在轨迹优化问题中，我们一般使用的优化方法为iLQR。然后我们应用梯度上升来调整λ。通过重复迭代可以找到最优解。

想要继续查看该篇文章相关链接和参考文献？

长按链接点击打开或点击底部【阅读原文】：

https://ai.yanxishe.com/page/TextTranslation/1427

AI研习社每日更新精彩内容，观看更多精彩内容：

盘点图像分类的窍门

动态编程：二项式序列

如何用Keras来构建LSTM模型，并且调参

一文教你如何用PyTorch构建 Faster RCNN

等你来译：

如何在神经NLP处理中引用语义结构

你睡着了吗？不如起来给你的睡眠分个类吧！

高级DQNs：利用深度强化学习玩吃豆人游戏

深度强化学习新趋势：谷歌如何把好奇心引入强化学习智能体

点击 阅读原文 查看本文更多内容↙

登录查看更多

6

相关内容

梯度上升

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

专知会员服务

53+阅读 · 2020年2月15日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

专知会员服务

50+阅读 · 2020年1月3日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

解读 | 得见的高斯过程

解读 | 得见的高斯过程

机器学习算法与Python学习

14+阅读 · 2019年2月13日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

强化学习的未来——第一部分

强化学习的未来——第一部分

AI研习社

9+阅读 · 2019年1月2日

强化学习的入门之旅

强化学习的入门之旅

机器学习研究会

7+阅读 · 2018年2月12日

算法优化｜梯度下降和随机梯度下降 — 从0开始

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

BAT机器学习面试1000题系列（第36~40题）

BAT机器学习面试1000题系列（第36~40题）

七月在线实验室

8+阅读 · 2017年10月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Learning Region Features for Object Detection

Arxiv

4+阅读 · 2018年3月19日

VIP会员

相关主题

拉格朗日乘子

拉格朗日函数

相关VIP内容

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

【哥伦比亚大学】经济AI优化课程，Economics, AI, and Optimization

专知会员服务

53+阅读 · 2020年2月15日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

【强化学习轻松入门】《Reinforcement Learning 101》，Shweta Bhatt

专知会员服务

50+阅读 · 2020年1月3日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

解读 | 得见的高斯过程

解读 | 得见的高斯过程

机器学习算法与Python学习

14+阅读 · 2019年2月13日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

强化学习的未来——第一部分

强化学习的未来——第一部分

AI研习社

9+阅读 · 2019年1月2日

强化学习的入门之旅

强化学习的入门之旅

机器学习研究会

7+阅读 · 2018年2月12日

算法优化｜梯度下降和随机梯度下降 — 从0开始

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

BAT机器学习面试1000题系列（第36~40题）

BAT机器学习面试1000题系列（第36~40题）

七月在线实验室

8+阅读 · 2017年10月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Risk-Aware Active Inverse Reinforcement Learning

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Learning Region Features for Object Detection

Arxiv

4+阅读 · 2018年3月19日

大家都在搜

大型语言模型

软件无线电

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员