【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应 - 专知VIP

会员服务 ·

10

ACM Multimedia · 视觉语言模型 ·

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

预训练的视觉-语言模型（Vision-Language Models, VLMs）已被广泛应用于各类计算机视觉任务（如小样本识别），通常通过模型自适应技术（如 prompt tuning 和 adapter）来实现。然而，现有的自适应方法大多由人类专家设计，既耗时又依赖经验。受近期大语言模型（Large Language Models, LLMs）在代码生成方面进展的启发，我们提出了一种进化式视觉-语言模型自适应方法（Evolutionary Vision-Language Model Adaptation, EvoVLMA），用于自动搜索免训练的高效 VLM 自适应算法。我们将特征选择与logits 计算识别为免训练 VLM 自适应中的关键功能模块，并提出了一种基于大语言模型辅助的两阶段进化算法，按序优化这两个部分。该方法通过“分而治之”的策略，有效应对了庞大搜索空间带来的挑战。此外，为了提高搜索过程的稳定性与效率，我们引入了低精度代码转换、基于 Web 的代码执行机制和过程监控机制，共同构建出一个高效的自动算法设计系统。大量实验表明，EvoVLMA 所发现的算法在性能上优于以往的手工设计方法。例如，在 8-shot 图像分类设置下，经典的 APE 算法在识别准确率上可提升 1.91 个百分点。本研究为预训练多模态模型的自适应算法优化自动化开辟了新的可能性。项目代码已开源，地址为： https://github.com/kding1225/EvoVLMA

成为VIP会员查看完整内容

15

相关内容

ACM Multimedia

ACM 国际多媒体大会（英文名称：ACM Multimedia，简称：ACM MM）是多媒体领域的顶级国际会议，每年举办一次。

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

专知会员服务

22+阅读 · 2024年10月23日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

【KDD2024】HiGPT:异构图语言模型

【KDD2024】HiGPT:异构图语言模型

专知会员服务

19+阅读 · 2024年7月9日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

107+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

视觉语言模型

相关VIP内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

专知会员服务

22+阅读 · 2024年10月23日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

【KDD2024】HiGPT:异构图语言模型

【KDD2024】HiGPT:异构图语言模型

专知会员服务

19+阅读 · 2024年7月9日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能对军事行动进行建模》

《利用人工智能学习、优化与推演美国海军作战部队的战略布局与分散（续文）》

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

《指挥官意图消息中关键概念自动提取》最新47页

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

相关基金

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

107+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员