【MIT博士论文】通过强化学习的生成式发现

发现新知识对技术进步至关重要，这一过程类似于人类和动物学习新技能的方式——通常通过试错法。例如，古代人类通过尝试不同的方法发现了火，孩子们通过反复的尝试和失败学会了走路和使用工具。在化学领域，科学家通过测试各种组成来发现新的催化剂。但人类是如何利用试错法改进现有的解决方案的（例如，学习更高效的走路方式或合成新化合物）？我们能否设计出模仿或超越人类发现过程的计算模型？这样的计算模型可以大大加速科学和工程的进展，因为它们可以自动化或辅助人类科学家和工程师的工作，更高效地发现新知识（例如，发现新化合物、简化机器人控制器设计等）。强化学习（RL）非常适合发现任务，因为它使机器能够通过试错法进行学习。我的工作克服了当前RL算法的以下主要局限性，从而推动了它们在发现任务中的潜力： 减少奖励塑形的偏差。强化学习依赖于来自试错经验的奖励信号，但这些信号可能是稀疏的，意味着只有在找到期望的解决方案时才会提供奖励，否则奖励为零。因此，大多数试验几乎没有反馈。为了在稀疏奖励的情况下提高性能，常见的策略是提供额外的提示（即奖励塑形）来引导RL算法。然而，如果这些提示不准确，它们可能会将算法引导到比没有提示时更差的解决方案。我提出了一种新的RL框架，可以与任何标准RL算法结合，确保使用提示进行训练时能够找到更好的解决方案，而不会损害性能。 使用次优数据进行学习。强化学习不仅可以通过与世界的在线互动来学习，还可以通过已记录经验的数据集来学习。对于像材料发现或机器人学习这样的昂贵或耗时的任务，离线强化学习可能更为优选，因为它利用现有数据，而不需要与世界进行新的交互。然而，这些数据集可能包含大多数低奖励的解决方案，这限制了离线RL算法在发现比数据集中更好的解决方案时的性能（正如我们在本文中稍后所展示的）。我提出了样本重加权策略，这些策略通过重新加权数据集，使得使用加权样本训练的当前离线RL算法能够发现比数据集中更好的解决方案，即使数据集中低奖励的解决方案占主导地位。 通过多样性保障安全。标准的RL算法旨在找到一个“最佳”解决方案。然而，在许多发现问题中——例如药物开发——产生多个具有不同特性的高奖励解决方案（即多样性）比仅关注单一解决方案更具价值。我研究了这个问题在一个新兴的发现任务中的应用——对抗大型语言模型（LLM）。在对抗测试中，我们需要生成多样化的提示，触发目标语言模型的不良输出。目前的做法利用RL训练一个LLM来对抗另一个LLM，但它们生成的提示多样性不足，通常会收敛到几个始终触发不良输出的提示。我提出了奖励智能体最大化生成提示的多样性，这也提高了提示在触发目标LLM的不良输出方面的成功率。

成为VIP会员查看完整内容

相关内容

博士论文

关注 114

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

专知会员服务

16+阅读 · 3月11日

【CMU博士论文】功能组件作为神经模型可解释性的范式

专知会员服务

20+阅读 · 2月3日

【ETHZ博士论文】与多机器人系统的直观与高效互动

专知会员服务

18+阅读 · 2024年11月29日

【伯克利博士论文】通过强化学习实现安全且可信的决策制定

专知会员服务

30+阅读 · 2024年10月10日