随着先进计算技术和人工智能的快速发展,复杂系统和应用程序迎来了新纪元,尤其是在自动驾驶汽车(AV)和机器人领域。这些系统越来越多地需要在动态和不确定的环境中自主决策。强化学习(RL)在这一背景下成为了关键技术,为通过与环境互动来学习最优决策策略提供了框架。然而,确保这些决策的安全性和可信性仍然是一个重要的挑战,特别是在安全至关重要的应用场景中,如自动驾驶。本论文针对这一挑战,提出了创新的基于RL的方法,结构分为三个既独立又相互关联的部分,每一部分都专注于安全且可信决策制定中的不同方面。论文的主线是探索和改进RL技术,以确保自主决策系统在复杂、动态环境下的安全性和可靠性。首先,本论文奠定了RL在决策制定中的基础,特别是在不确定和动态的环境下。该部分聚焦于增强RL,以应对现实世界的复杂性,例如在自动驾驶场景中与不可预测的代理(如人类驾驶员)互动,以及在离线RL设置中处理分布偏移问题。这为理解和提升自主系统在不确定条件下的决策能力奠定了基础。在第一部分的基础上,第二部分探讨了层次化规划与RL的集成。该部分重点在于创建一种框架,将不同层次的决策制定相结合,平衡即时的低层次安全问题与高层次战略目标。该方法旨在应对传统RL在复杂多代理环境和长时间任务中的局限性,从而在实时决策中展示出更好的适应性和效率。第三部分则呈现了对RL的前瞻性方法,重点在于离线和在线学习方法的整合。这一部分解决了在探索可能代价高昂或危险的场景中,安全有效地训练RL代理的问题。通过将大规模离线数据(如专家示范)的优势与在线学习相结合,本部分提出了一个新的框架,以增强RL代理在实际应用中的安全性和性能。