This study is motivated by the critical challenges in the biopharmaceutical manufacturing, including high complexity, high uncertainty, and very limited process data. Each experiment run is often very expensive. To support the optimal and robust process control, we propose a general green simulation assisted policy gradient (GS-PG) framework for both online and offline learning settings. Basically, to address the key limitations of state-of-art reinforcement learning (RL), such as sample inefficiency and low reliability, we create a mixture likelihood ratio based policy gradient estimation that can leverage on the information from historical experiments conducted under different inputs, including process model coefficients and decision policy parameters. Then, to accelerate the learning of optimal and robust policy, we further propose a variance reduction based sample selection method that allows GS-PG to intelligently select and reuse most relevant historical trajectories. The selection rule automatically updates the samples to be reused during the learning of process mechanisms and the search for optimal policy. Our theoretical and empirical studies demonstrate that the proposed framework can perform better than the state-of-art policy gradient approach and accelerate the optimal robust process control for complex stochastic systems under high uncertainty.


翻译:这项研究的动机是生物制药制造中的关键挑战,包括高度复杂、高度不确定性和极为有限的过程数据。每次试验的运行往往非常昂贵。为了支持最佳和稳健的流程控制,我们提议为在线和离线学习环境提供一个通用的绿色模拟辅助政策梯度框架(GS-PG),基本上是为了解决先进强化学习(RL)的关键局限性,例如抽样效率低下和可靠性低,我们创造了一种基于混合概率的政策梯度估计,可以利用在不同投入下进行的历史实验所提供的信息,包括流程模型系数和决定政策参数。然后,为了加速学习最佳和稳健的政策,我们进一步提议一种基于差异的减少样本选择方法,使GS-PG能够明智地选择和再利用最相关的历史轨迹。选择规则自动更新了在学习流程机制和寻找最佳政策期间再利用的样本。我们的理论和实证研究表明,拟议的框架可以比州级政策梯度方法更好地运行,并加速对高度不确定性的复杂查查系统进行最佳稳健的流程控制。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
专知会员服务
50+阅读 · 2020年12月14日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
101+阅读 · 2020年11月12日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年12月10日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
101+阅读 · 2020年11月12日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员