预训练的视觉-语言模型(如CLIP)已经成功适应了多种下游任务。然而,它们的性能很大程度上依赖于输入文本提示的具体性,这需要精心设计提示模板。当前的提示优化方法通常通过梯度下降来学习提示,将提示视为可调参数。然而,这些方法容易导致在训练时看到的基础类别上的过拟合,并且生成的提示通常不再为人类所理解。

本文提出了一种简单但可解释的提示优化器(IPO),它利用大型语言模型(LLM)动态生成文本提示。我们引入了一个提示优化提示(Prompt Optimization Prompt),它不仅引导LLM创建有效的提示,还存储了过去提示及其性能指标,提供了丰富的上下文信息。此外,我们结合了一个大型多模态模型(LMM),通过生成图像描述,基于视觉内容进行调整,增强了文本和视觉模态之间的交互。这样可以为数据集创建特定的提示,既提高了泛化性能,又保持了人类的可理解性。**

通过在11个数据集上的广泛测试,我们发现IPO不仅提升了现有基于梯度下降的提示学习方法的准确性,还显著提高了生成提示的可解释性。通过利用LLM的优势,我们的方法确保生成的提示保持人类可理解性,从而促进了视觉-语言模型的透明度和可监督性。

成为VIP会员查看完整内容
18

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
18+阅读 · 7月9日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
25+阅读 · 1月9日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
专知会员服务
21+阅读 · 2021年9月27日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
专知会员服务
29+阅读 · 2020年9月18日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
37+阅读 · 2020年6月22日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
19+阅读 · 2019年10月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【KDD2024】HiGPT:异构图语言模型
专知会员服务
18+阅读 · 7月9日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
25+阅读 · 1月9日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
专知会员服务
21+阅读 · 2021年9月27日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
专知会员服务
29+阅读 · 2020年9月18日
【ICML2020】持续终身学习的神经主题建模
专知会员服务
37+阅读 · 2020年6月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员