C2SIM Autonomous Systems(C2SIM自主系统)团队已着手进行一项探索性研究,采用大型语言模型(LLM)GPT-4来促进场景开发,为扩展本体论奠定基础。本文概述了 GPT-4 在生成特定场景方面的初步应用结果,并强调了其实用性和局限性。详细介绍了指导 GPT-4 输出所采用的方法,包括 “0-shot 学习 ”和 “提示工程”,它们是根据 C2SIM 要求策划场景内容的技术。这些方法提供了一种新颖的方法,不仅可以总结文献中的现有知识,还可以从模型中提取嵌入式领域知识,从而为用户引导的动态场景完善过程做出贡献。这项调查的洞察力揭示了在场景生成中部署 LLM 的实际意义,从而为后续以合成数据对本体开发的贡献为重点的研究轨迹提供了信息。最后,本文根据目前在该领域应用 LLMs 的经验教训,规划了未来研究的潜在途径。

本文利用 OpenAI 的 GPT-4 模型作为生成自主系统场景的辅助工具。使用零样本方法来检验该模型的能力,没有通过样本(少数几次)或其他定制对模型进行微调。塑造 GPT-4 响应的主要方法是 “提示工程”。提示是对输出的自然语言描述,但经过精心设计,可引导模型产生所需的结果。根据提示中的措辞、详细程度或指示,结果可能会有所不同,有时甚至会大相径庭。因此,对提示的改进需要采用迭代开发方法。

提示符的开发遵循一个循环,即逐步完善提示符,以解决评估过程中发现的问题。开发工作在 OpenAI 的 Playground 中进行,这是一个简单而有效的网络环境,用于定义和测试提示。Playground 界面用于定义包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。

提示的演变基于 OpenAI 文档中列出的最佳实践。创建并测试了多个提示版本,并逐步添加、编辑或删除细节,以解决生成的输出中存在的缺陷。提示语的详细信息见第 4.1.1 节和第 4.3.1 节。

理想情况下,对提示版本(或一般微调模型)的评估应基于可量化的测量结果,如在已知预期结果的测试用例集上,被评估版本产生的正确结果所占的百分比。在这里,没有精确的典型情景可用作基准,因为没有一种单一的方法来描述情景。因此,对结果的评估是基于对每个版本根据所需的标准情景格式的不同部分所产生的输出结果进行的定性分析。

开发工作主要是通过评估论文中情景提取任务(第 4.1 节)的提示质量来进行的,因此可以根据模型结果与论文本身所表达的内容的匹配程度来进行评估。我们考虑了以下问题,评分标准为 0 至 5 分:

  • 结果是否包含标准场景模板的所有要素?评估是否有遗漏(或添加)的要素偏离预期结果。

  • 结果是否只反映了文件中包含的场景?评估是否成功地从论文更广泛的考虑和讨论中提取了方案。在许多情况下,假设只是整个论文的一小部分,可能仅用于说明目的,这给提取带来了困难。

  • 描述是否是对论文场景的公平总结?评估生成的摘要与论文描述的 “要点 ”的匹配程度,以及是否包含幻想的细节(“幻觉”)。

  • 根据上下文,生成的目标和绩效衡量标准是否合理?

  • 步骤是否反映了情景的逻辑时间进程?

鉴于对相同输入进行连续运行会产生不同的结果,评估考虑了每个提示版本五次运行的平均值。下一节概述了所进行的实验。

成为VIP会员查看完整内容
10

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《混合专家模型推理优化技术综述》
专知会员服务
23+阅读 · 12月21日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
33+阅读 · 11月25日
《深度表格学习综述》
专知会员服务
38+阅读 · 10月18日
《多模态大语言模型视觉提示》综述
专知会员服务
28+阅读 · 9月25日
《大型语言模型加速生成技术》最新综述
专知会员服务
45+阅读 · 5月25日
《基础模型在现实世界机器人应用》综述
专知会员服务
52+阅读 · 2月11日
【2022新书】深度学习归一化技术,117页pdf
专知
24+阅读 · 2022年11月25日
【干货书】优化算法,232页pdf
专知
25+阅读 · 2022年9月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员