【伯克利博士论文】通过强化学习实现安全且可信的决策制定 - 专知VIP

会员服务 ·

19

强化学习 · 博士论文 · 自动驾驶 ·

2024 年 10 月 10 日

【伯克利博士论文】通过强化学习实现安全且可信的决策制定

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着先进计算技术和人工智能的快速发展，复杂系统和应用程序迎来了新纪元，尤其是在自动驾驶汽车（AV）和机器人领域。这些系统越来越多地需要在动态和不确定的环境中自主决策。强化学习（RL）在这一背景下成为了关键技术，为通过与环境互动来学习最优决策策略提供了框架。然而，确保这些决策的安全性和可信性仍然是一个重要的挑战，特别是在安全至关重要的应用场景中，如自动驾驶。本论文针对这一挑战，提出了创新的基于RL的方法，结构分为三个既独立又相互关联的部分，每一部分都专注于安全且可信决策制定中的不同方面。论文的主线是探索和改进RL技术，以确保自主决策系统在复杂、动态环境下的安全性和可靠性。首先，本论文奠定了RL在决策制定中的基础，特别是在不确定和动态的环境下。该部分聚焦于增强RL，以应对现实世界的复杂性，例如在自动驾驶场景中与不可预测的代理（如人类驾驶员）互动，以及在离线RL设置中处理分布偏移问题。这为理解和提升自主系统在不确定条件下的决策能力奠定了基础。在第一部分的基础上，第二部分探讨了层次化规划与RL的集成。该部分重点在于创建一种框架，将不同层次的决策制定相结合，平衡即时的低层次安全问题与高层次战略目标。该方法旨在应对传统RL在复杂多代理环境和长时间任务中的局限性，从而在实时决策中展示出更好的适应性和效率。第三部分则呈现了对RL的前瞻性方法，重点在于离线和在线学习方法的整合。这一部分解决了在探索可能代价高昂或危险的场景中，安全有效地训练RL代理的问题。通过将大规模离线数据（如专家示范）的优势与在线学习相结合，本部分提出了一个新的框架，以增强RL代理在实际应用中的安全性和性能。

成为VIP会员查看完整内容

33

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

专知会员服务

48+阅读 · 2024年10月22日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

专知会员服务

16+阅读 · 2024年10月7日

【CMU博士论文】利用结构化中间表示构建可靠且透明的机器学习系统

【CMU博士论文】利用结构化中间表示构建可靠且透明的机器学习系统

专知会员服务

28+阅读 · 2024年9月19日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

31+阅读 · 2024年8月23日

【牛津大学博士论文】有效的离线训练与高效的在线适应

【牛津大学博士论文】有效的离线训练与高效的在线适应

专知会员服务

35+阅读 · 2024年4月25日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

48+阅读 · 2022年9月14日

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

专知会员服务

100+阅读 · 2022年9月9日

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

专知会员服务

69+阅读 · 2021年12月20日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

专知会员服务

33+阅读 · 2021年4月1日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【干货书】机器学习导论第四版，903页pdf

【干货书】机器学习导论第四版，903页pdf

专知

28+阅读 · 2022年11月26日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

35+阅读 · 2022年1月8日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【知识图谱】知识图谱怎么与深度学习结合？

【知识图谱】知识图谱怎么与深度学习结合？

产业智能官

160+阅读 · 2018年12月18日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【机器学习】如何通过机器学习预测维护设备？

【机器学习】如何通过机器学习预测维护设备？

产业智能官

16+阅读 · 2018年7月9日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

8+阅读 · 2017年12月31日

面向服务的复杂产品设计建模与协同决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

专知会员服务

48+阅读 · 2024年10月22日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

专知会员服务

16+阅读 · 2024年10月7日

【CMU博士论文】利用结构化中间表示构建可靠且透明的机器学习系统

【CMU博士论文】利用结构化中间表示构建可靠且透明的机器学习系统

专知会员服务

28+阅读 · 2024年9月19日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

31+阅读 · 2024年8月23日

【牛津大学博士论文】有效的离线训练与高效的在线适应

【牛津大学博士论文】有效的离线训练与高效的在线适应

专知会员服务

35+阅读 · 2024年4月25日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

48+阅读 · 2022年9月14日

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

【斯坦福博士论文】不确定性和信息为机器学习提供决策支持

专知会员服务

100+阅读 · 2022年9月9日

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

【斯坦福大学博士论文】现代机器学习优化问题：自适应、鲁棒性与隐私性

专知会员服务

69+阅读 · 2021年12月20日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

专知会员服务

33+阅读 · 2021年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

扩散语言模型综述

《美陆军徒步机动作战条令手册》最新168页

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

军事后勤数字化未来展望

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【干货书】机器学习导论第四版，903页pdf

【干货书】机器学习导论第四版，903页pdf

专知

28+阅读 · 2022年11月26日

【干货书】《机器学习动力系统与控制》，572页pdf

【干货书】《机器学习动力系统与控制》，572页pdf

专知

35+阅读 · 2022年1月8日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【知识图谱】知识图谱怎么与深度学习结合？

【知识图谱】知识图谱怎么与深度学习结合？

产业智能官

160+阅读 · 2018年12月18日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【机器学习】如何通过机器学习预测维护设备？

【机器学习】如何通过机器学习预测维护设备？

产业智能官

16+阅读 · 2018年7月9日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

【迁移学习】迁移学习在图像分类中的简单应用策略

【迁移学习】迁移学习在图像分类中的简单应用策略

产业智能官

15+阅读 · 2018年1月5日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

8+阅读 · 2017年12月31日

面向服务的复杂产品设计建模与协同决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员