The In-Context Learning (ICL) is to understand a new task via a few demonstrations (aka. prompt) and predict new inputs without tuning the models. While it has been widely studied in NLP, it is still a relatively new area of research in computer vision. To reveal the factors influencing the performance of visual in-context learning, this paper shows that prompt selection and prompt fusion are two major factors that have a direct impact on the inference performance of visual context learning. Prompt selection is the process of identifying the most appropriate prompt or example to help the model understand new tasks. This is important because providing the model with relevant prompts can help it learn more effectively and efficiently. Prompt fusion involves combining knowledge from different positions within the large-scale visual model. By doing this, the model can leverage the diverse knowledge stored in different parts of the model to improve its performance on new tasks. Based these findings, we propose a simple framework prompt-SelF for visual in-context learning. Specifically, we first use the pixel-level retrieval method to select a suitable prompt, and then use different prompt fusion methods to activate all the knowledge stored in the large-scale model, and finally ensemble the prediction results obtained from different prompt fusion methods to obtain the final prediction results. And we conduct extensive experiments on single-object segmentation and detection tasks to demonstrate the effectiveness of prompt-SelF. Remarkably, the prompt-SelF has outperformed OSLSM based meta-learning in 1-shot segmentation for the first time. This indicated the great potential of visual in-context learning. The source code and models will be available at \url{https://github.com/syp2ysy/prompt-SelF}.


翻译:视觉上下文学习(ICL)是指通过几个演示(也称为提示)来理解一个新任务,并在不调整模型的情况下预测新的输入。尽管在自然语言处理领域得到了广泛的研究,但在计算机视觉领域中仍是一个相对较新的研究领域。为揭示影响视觉上下文学习性能的因素,本文表明提示选择和提示融合是两个直接影响视觉上下文学习推断性能的主要因素。提示选择是确定最合适的提示或示例来帮助模型理解新任务的过程。这很重要,因为为模型提供相关提示可以帮助它更有效、更高效地学习。提示融合涉及到在大规模视觉模型中有不同位置的知识相互结合。通过这样做,模型可以利用存储在模型不同部分中的多样化知识来提高其在新任务上的性能。基于这些发现,我们提出了一个简单的视觉上下文学习框架 prompt-SelF。具体来说,我们首先使用像素级检索方法来选择合适的提示,然后使用不同的提示融合方法来激活存储在大规模模型中的所有知识,最后集成从不同的提示融合方法得到的预测结果,以获取最终的预测结果。我们在单物体分割和检测任务上进行了广泛的实验,以证明 prompt-SelF 的有效性。值得注意的是,prompt-SelF 首次在1-shot分割任务上胜过基于OSLSM的元学习,这表明了视觉上下文学习的巨大潜力。源代码和模型将在 \url{https://github.com/syp2ysy/prompt-SelF} 上公开。

0
下载
关闭预览

相关内容

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
19+阅读 · 2018年10月25日
VIP会员
相关VIP内容
相关资讯
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员