预训练的视觉-语言模型(Vision-Language Models, VLMs)已被广泛应用于各类计算机视觉任务(如小样本识别),通常通过模型自适应技术(如 prompt tuning 和 adapter)来实现。然而,现有的自适应方法大多由人类专家设计,既耗时又依赖经验。受近期大语言模型(Large Language Models, LLMs)在代码生成方面进展的启发,我们提出了一种进化式视觉-语言模型自适应方法(Evolutionary Vision-Language Model Adaptation, EvoVLMA),用于自动搜索免训练的高效 VLM 自适应算法。 我们将特征选择logits 计算识别为免训练 VLM 自适应中的关键功能模块,并提出了一种基于大语言模型辅助的两阶段进化算法,按序优化这两个部分。该方法通过“分而治之”的策略,有效应对了庞大搜索空间带来的挑战。 此外,为了提高搜索过程的稳定性与效率,我们引入了低精度代码转换基于 Web 的代码执行机制过程监控机制,共同构建出一个高效的自动算法设计系统。大量实验表明,EvoVLMA 所发现的算法在性能上优于以往的手工设计方法。例如,在 8-shot 图像分类设置下,经典的 APE 算法在识别准确率上可提升 1.91 个百分点。 本研究为预训练多模态模型的自适应算法优化自动化开辟了新的可能性。项目代码已开源,地址为: https://github.com/kding1225/EvoVLMA

成为VIP会员查看完整内容
1

相关内容

ACM 国际多媒体大会(英文名称:ACM Multimedia,简称:ACM MM)是多媒体领域的顶级国际会议,每年举办一次。
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】渐进式语义引导视觉变换器用于零样本学习
专知会员服务
19+阅读 · 2024年4月13日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
37+阅读 · 2021年2月10日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
VIP会员
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员