摘要—近年来,生成模型在生成任务中的卓越表现激发了人们对其在决策过程中应用的浓厚兴趣。由于其处理复杂数据分布的能力和强大的模型能力,生成模型可以通过生成轨迹,有效地融入决策系统,引导智能体朝向高回报的状态-动作区域或中间子目标。本文全面回顾了生成模型在决策任务中的应用。我们对七种基础生成模型进行了分类:能量模型、生成对抗网络、变分自编码器、标准化流、扩散模型、生成流网络和自回归模型。关于它们的应用,我们将其功能分为三个主要角色:控制器、建模器和优化器,并讨论每个角色如何为决策提供贡献。此外,我们还探讨了这些模型在五个关键实际决策场景中的部署情况。最后,我们总结了当前方法的优缺点,并提出了三条推进下一代生成决策模型的关键方向:高性能算法、大规模通用决策模型以及自我进化与自适应模型。 关键词—生成模型、决策制定、生成决策制定

1 引言

生成模型已成为学术界和工业界的热门话题,主要由于它们能够生成大量高质量和多样性的合成数据。从早期的系统如 DALL-E [1](用于图像生成)和 GPT-3 [2](用于文本生成)到最近的进展,如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4],生成模型在其输出的质量和规模上迅速发展。 内容生成旨在创造与训练样本相似的连贯材料,而决策制定则专注于生成能够实现最佳结果的行动序列。与内容生成不同,决策制定涉及复杂、动态的环境和长期的决策。因此,尽管生成模型在内容生成方面取得了成功,将它们应用于决策制定仍面临诸多挑战。这些挑战包括:1)如何通过与环境的交互来学习策略,而不仅仅是模仿专家行为;2)如何基于学习到的行为生成新策略,从策略学习过渡到策略生成;3)如何建立一个能够在各种环境中适应的稳健基础决策生成模型,且只需最少的调优工作;4)如何构建策略的多步推理和长期演化能力。这些挑战强调了生成模型不仅仅是生成数据的需要。

在实际应用中,决策制定通常被称为序列决策制定,其中决策者随着时间推移做出一系列观察,每个决策都会影响随后的选择。目标是识别一个策略,以优化期望的回报或最小化跨越序列行动的成本。经典算法,如动态规划(DP)和强化学习(RL),广泛应用于解决建模为马尔可夫决策过程(MDPs)的问题。这些方法通过基于观察到的回报和状态转移来更新策略,而不是生成新策略,来优化决策制定。尽管这些传统方法在许多应用中取得了成功,但它们通常依赖于试错或预定义的状态和转移,这限制了探索,并可能错过更好的解决方案。此外,它们需要大量的计算和优化,这在高维或大规模问题中可能不切实际。传统方法还需要在面对新环境时进行大规模的重新配置或再训练,从而降低了灵活性。

另一方面,生成模型被设计为对数据分布进行建模,而不仅仅是拟合标签。一旦训练完成,它们可以生成与原始数据相似的新样本,从而能够探索不同的场景和结果。这一能力使得在传统方法可能难以立即显现的情况下,发现新的策略成为可能。在复杂或标签不明确的数据场景中,生成模型提供了对可能决策路径的更深入理解,有时能引导出更符合高回报或期望目标的策略。然而,传统方法如优化或强化学习在决策空间较清晰、目标更直接的简单环境中仍然有效。选择这些方法之间的差异,取决于任务的复杂性和环境的特点。 认识到这些优势,近年来,开发新的生成模型并将其应用于决策制定的研究工作大幅增加。图 1 展示了生成模型及其在决策制定中的应用的研究趋势,进一步强调了这些方法在解决此类挑战中的重要性。然而,目前缺乏全面的综述,能够总结过去的工作并为新的研究方向铺平道路。这个空白促使我们撰写本文综述。该综述的三大贡献包括:1)提出了一个全面的分类法,用于分类当前的生成决策制定方法。我们识别了七种用于决策制定的生成模型,并将其功能分类为三个关键角色:控制器、建模器和优化器;2)我们回顾了生成模型在决策制定中的多样化实际应用,重点讨论了机器人控制、结构生成、游戏、自动驾驶和优化任务;3)最后,我们总结了现有工作的优缺点,并讨论了未来在决策制定任务中开发高性能生成模型的前景。 本文其余部分的组织结构如下(参见图 2 了解总体大纲):第二部分作为引言,介绍了序列决策制定的基本公式,并提供了所有研究方法的基础知识。具体而言,我们详细介绍了七种生成模型,并将它们与传统方法进行对比。第三部分提出了用于分类生成决策制定方法的分类法。第四部分根据介绍的分类法回顾并分析现有文献。第五部分展示了生成模型在决策制定中的实际应用。最后,第六部分讨论了生成模型在决策制定中的未来发展方向,第七部分总结了本文的整体内容。

成为VIP会员查看完整内容
2

相关内容

在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。
不平衡数据学习的全面综述
专知会员服务
30+阅读 · 2月15日
《面向基础模型的高效参数微调》综述
专知会员服务
32+阅读 · 1月24日
《混合专家模型推理优化技术综述》
专知会员服务
42+阅读 · 2024年12月21日
《扩散模型》最新教程,141页ppt
专知会员服务
75+阅读 · 2024年12月2日
《多模态对齐与融合》综述
专知会员服务
74+阅读 · 2024年11月27日
《大语言模型的数据合成与增强综述》
专知会员服务
41+阅读 · 2024年10月19日
《基于扩散模型的条件图像生成》综述
专知会员服务
42+阅读 · 2024年10月1日
大型语言模型的景观:范式与微调策略的全面综述和分析
《多任务学习》最新综述论文,20页pdf
专知会员服务
124+阅读 · 2021年4月6日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度多模态表示学习综述论文,22页pdf
专知
31+阅读 · 2020年6月21日
【新书册】贝叶斯神经网络,41页pdf
专知
28+阅读 · 2020年6月3日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
434+阅读 · 2023年3月31日
Arxiv
73+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
不平衡数据学习的全面综述
专知会员服务
30+阅读 · 2月15日
《面向基础模型的高效参数微调》综述
专知会员服务
32+阅读 · 1月24日
《混合专家模型推理优化技术综述》
专知会员服务
42+阅读 · 2024年12月21日
《扩散模型》最新教程,141页ppt
专知会员服务
75+阅读 · 2024年12月2日
《多模态对齐与融合》综述
专知会员服务
74+阅读 · 2024年11月27日
《大语言模型的数据合成与增强综述》
专知会员服务
41+阅读 · 2024年10月19日
《基于扩散模型的条件图像生成》综述
专知会员服务
42+阅读 · 2024年10月1日
大型语言模型的景观:范式与微调策略的全面综述和分析
《多任务学习》最新综述论文,20页pdf
专知会员服务
124+阅读 · 2021年4月6日
相关资讯
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员