AI自动生成prompt媲美人类，网友：工程师刚被聘用，又要淘汰了

会员服务 ·

AI自动生成prompt媲美人类，网友：工程师刚被聘用，又要淘汰了

2022 年 11 月 13 日 极市平台

↑ 点击蓝字关注极市平台

来源丨机器之心

编辑丨极市平台

极市导读

来自多伦多大学、滑铁卢大学等机构的研究者受 prompt engineering 的启发，提出一种使用大型语言模型自动生成和选择指令的新算法，在 24 项任务中有 19 项达到了人类水平的表现。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

现阶段，得益于模型规模的扩大和基于注意力架构的出现，语言模型表现出了前所未有的通用性。这些大型语言模型（LLM，large language models）在各种不同任务中表现出非凡的能力，其中包括零样本和小样本设置。

然而，在模型通用性的基础上，继而引出一个控制问题：我们如何才能让 LLM 按照我们的要求去做？

为了回答这个问题并引导 LLM 朝着我们期望的行为方向发展，研究者们采取了一系列措施来达到这个目的，例如对模型进行微调、通过上下文进行学习、不同形式的 prompt 生成等。而基于 prompt 的方法又包括可微调的 soft prompt 以及自然语言 prompt engineering（提示工程）。众多研究者对后者表现出了极大的兴趣，因为它为人类与机器交互提供了一个自然交互的界面。

然而简单的 prompt 并不总能产生所需的结果，例如，在生成熊猫图像时，添加诸如「cute」之类的形容词或诸如「eat bamboo」之类的短语对输出有何影响，我们不了解。

因此，人类用户必须尝试各种 prompt 来引导模型完成我们期望的行为。LLM 这一执行过程可视为黑盒过程：虽然它们可以执行大范围的自然语言程序，但这些程序的处理方式对人类来说可能并不直观，非常难以理解，而且只有在执行下游任务时才能衡量指令的质量。

我们不禁会问：大型语言模型可以为自己编写 prompt 吗？答案是，不但可以，还能达到人类水平。

为了减少创建和验证有效指令的人工工作量，来自多伦多大学、滑铁卢大学等机构的研究者提出了一种使用 LLM 自动生成和选择指令的新算法：APE（Automatic Prompt Engineer）。他们将此问题描述为自然语言程序合成，并建议将其作为黑盒优化问题来处理，LLM 可以用来生成以及搜索可行的候选解决方案。

论文地址：https://arxiv.org/pdf/2211.01910.pdf
论文主页：https://sites.google.com/view/automatic-prompt-engineer

研究者从 LLM 的三个特性入手。首先，使用 LLM 作为推理模型，根据输入 - 输出对形式的一小组演示生成指令候选。接下来，通过 LLM 下的每条指令计算一个分数来指导搜索过程。最后，他们提出一种迭代蒙特卡洛搜索方法，LLM 通过提出语义相似指令变体来改进最佳候选指令。

直观地说，本文提出的算法要求 LLM 根据演示生成一组指令候选，然后要求算法评估哪些指令更有希望，并将该算法命名为 APE。

本文贡献如下：

研究者将指令生成作为自然语言程序合成，将其表述为一个由 LLM 引导的黑盒优化问题，并提出迭代蒙特卡罗搜索方法来近似求解；
APE 方法在 19/24 任务中实现了比人工注释器生成的指令更好或相当的性能。

看到这项研究，网友不禁感叹：那些刚被聘用的 prompt 工程师，几个月后可能要被 AI 淘汰。言外之意就是，这项研究要抢了人类 prompt 工程师的活。

「该研究尽最大的努力使 prompt engineering 自动化，这样从事 ML 的研究人员就可以回到真正的算法问题上了（附加两个大哭的表情）。」

还有人感叹：LLM 不愧是原始 AGI 的中流砥柱。

使用 LLM 进行自然语言程序合成

APE 在建议（proposal）和评分这两个关键组件中都使用 LLM。

如下图 2 和算法 1 所示，APE 首先提出几个候选 prompt，然后根据选定的评分函数对候选集合进行筛选 / 精炼，最终选择得分最高的指令。

下图为 APE 的执行过程。它可以通过直接推理或基于语义相似度的递归过程生成几个候选 prompt，评估其性能，并迭代地提出新的 prompt。

初始提议分布

由于搜索空间无限大，找到正确指令是极其困难的，这使得自然语言程序合成历来难以处理。基于此，研究者考虑利用一个预先训练过的 LLM 来提出一个候选解决方案，以指导搜索过程。

他们考虑两种方法生成高质量候选。首先采用一种基于前向模式生成的方法。此外，他们还考虑了反向模式生成，使用具有填充功能的 LLM（如 T5、GLM、InsertGPT）来推断缺失的指令。

得分函数

为了将问题转换为黑盒优化问题，研究者选择了一个得分函数来准确测量数据集和模型生成的数据之间的对齐情况。

在归纳实验中，研究者考虑了两个潜在的得分函数。在 TruthfulQA 实验中，研究者主要关注 Lin 等人提出的自动化指标，类似于执行精度。

在每一种情况下，研究者使用如下公式 (1) 来评估生成指令的质量，并对持有测试数据集 Dtest 进行期望。

实验

研究者对 APE 如何引导 LLM 实现预期的行为进行了研究。他们从三个角度进行：零样本性能、少样本上下文学习性能和真实性（truthfulness）。

研究者评估了 Honovich 等人提出的 24 个指令归纳任务的零样本和少样本上下文学习。这些任务涵盖语言理解的许多方面，从简单的短语结构到相似性和因果关系识别。为了了解 APE 生成的指令如何引导 LLM 生成不同风格的答案，本文将 APE 应用于 TruthfulQA（一个数据集）。

对于零样本测试准确率，APE 在 24 项任务中有 19 项达到了人类水平的表现。

对于少样本上下文测试准确率，在 24 个任务中，APE 提高了 21 个任务的少样本上下文学习性能。

研究者还将 APE prompt 与 Lin 等人提出的人工 prompt 进行了对比。图 (a) 显示 APE 指令在所有三个指标上的表现都优于人工 prompt。图（b）显示了 truthfulness 和 informativeness 之间的权衡。

更多细节请参阅原论文。

公众号后台回复“ECCV2022”获取论文资源分类汇总下载～

△点击卡片关注极市平台，获取最新CV干货

极市干货

算法竞赛：算法offer直通车、50万总奖池！高通人工智能创新应用大赛等你来战！

技术干货：超简单正则表达式入门教程｜22 款神经网络设计和可视化的工具大汇总

极视角动态：芜湖市湾沚区联手极视角打造核酸检测便民服务系统上线！｜青岛市委常委、组织部部长于玉一行莅临极视角调研

“

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多

相关内容

Prompt

关注 10

「大型语言模型推理」综述

专知会员服务

91+阅读 · 2022年12月24日

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

26+阅读 · 2022年12月4日

《训练、比较、评估机器学习模型的自动框架》CMU 2022最新20页slides

专知会员服务

44+阅读 · 2022年11月28日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【AAAI 2022】299页PPT，NUS最全《自动合成》教程

专知会员服务

19+阅读 · 2022年3月17日

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【NeurIPS2021】用于物体检测的实例条件知识蒸馏

专知会员服务

20+阅读 · 2021年11月10日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

【NeurIPS 2020 】神经网络结构生成优化

专知会员服务

21+阅读 · 2020年10月24日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

新智元

2+阅读 · 2022年9月30日

“AI 终有可能消灭人类！”

CSDN

0+阅读 · 2022年9月15日

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心

2+阅读 · 2022年7月24日

多模态新王登基！OpenAI发布DALL·E 2，生成图像「指哪打哪」

新智元

0+阅读 · 2022年4月10日

OpenAI的DALL·E迎来升级，不止文本生成图像，还可二次创作

机器之心

1+阅读 · 2022年4月7日

CMU创建一个开源的AI代码生成模型，C语言表现优于Codex

机器之心

4+阅读 · 2022年3月14日

这个预训练不简单！BLIP：统一视觉-语言理解和生成任务

CVer

5+阅读 · 2022年2月6日

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

机器之心

1+阅读 · 2022年2月6日

卷起来了！DeepMind发布媲美普通程序员的AlphaCode，同日OpenAI神经数学证明器拿下奥数题

机器之心

0+阅读 · 2022年2月3日

缩小规模，OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

机器之心

0+阅读 · 2021年12月22日

微气泡（群）生成的介尺度机理及工业微气泡发生器科学基础

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂井型模拟的变栅格法六面体网格自动生成

国家自然科学基金

0+阅读 · 2013年12月31日

基于GPU的相似波形快速检索方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

自动消除保护轴承间隙的机构研究

国家自然科学基金

0+阅读 · 2012年12月31日

模型驱动的高可靠图算法构件自动生成研究

国家自然科学基金

0+阅读 · 2012年12月31日

cfa-miR-143在调控犬流感病毒致病机制的研究

国家自然科学基金

0+阅读 · 2012年12月31日

microRNA 在Snail/Twist诱导乳腺癌细胞发生上皮-间质转化中的表达调控及生物学功能

国家自然科学基金

0+阅读 · 2011年12月31日

六面体网格自动生成研究和软件开发

国家自然科学基金

0+阅读 · 2011年12月31日

制造商导入在线渠道的双渠道定价策略与协调机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向干扰事件风险环境的弹性供应链系统设计与运作集成优化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Curriculum Script Distillation for Multilingual Visual Question Answering

Arxiv

1+阅读 · 2023年1月17日

MRI-powered Magnetic Miniature Capsule Robot with HIFU-controlled On-demand Drug Delivery

Arxiv

0+阅读 · 2023年1月17日

Brain tumour segmentation with incomplete imaging data

Arxiv

0+阅读 · 2023年1月16日

Federated Learning with Heterogeneous Differential Privacy

Arxiv

0+阅读 · 2023年1月14日

Personalized Prompt Learning for Explainable Recommendation

Arxiv

0+阅读 · 2023年1月13日

Prompt Distribution Learning

Arxiv

14+阅读 · 2022年5月6日

Conditional Prompt Learning for Vision-Language Models

Arxiv

13+阅读 · 2022年3月10日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Learning Heterogeneous Knowledge Base Embeddings for Explainable Recommendation

Arxiv

11+阅读 · 2018年5月9日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

VIP会员