【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP - 专知VIP

会员服务 ·

20

CVPR 2023 · 多模态提示学习 · 预训练模型 · Vita-CLIP ·

2023 年 4 月 11 日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

将CLIP等对比图像-文本预训练模型用于视频分类，因其成本效益和具有竞争力的性能而受到关注。然而，最近在这一领域的工作面临一个权衡。对预训练模型进行微调以实现强监督性能，会导致低零样本泛化。类似地，冻结主干以保留零样本能力会导致监督精度的显著下降。因此，最近的文献工作通常为监督和零样本行为识别训练单独的模型。本文提出一种多模态提示学习方案，在单一统一训练下平衡有监督和零样本的性能。视觉方面的提示方法满足了三个方面的需求:1)全局视频级提示对数据分布进行建模;2)局部帧级提示，为每帧提供判别式条件;以及3)用于提取浓缩视频表示的摘要提示。此外，在文本端定义了一个提示方案，以增强文本上下文。通过这种激励方案，可以在Kinetics-600、HMDB51和UCF101上实现最先进的零样本性能，同时在有监督的环境中保持竞争力。通过保持预训练主干冻结，优化了更少的参数数量，并保留了现有的通用表示，这有助于实现强大的零样本性能。我们的代码/模型发布在https://github.com/TalalWasim/Vita-CLIP.

成为VIP会员查看完整内容

40

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】循环动态嵌入的视频目标分割

【CVPR2022】循环动态嵌入的视频目标分割

专知会员服务

19+阅读 · 2022年5月16日

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

专知会员服务

34+阅读 · 2022年3月13日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知会员服务

33+阅读 · 2021年3月7日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知

1+阅读 · 2022年11月26日

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

PaperWeekly

2+阅读 · 2022年10月24日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

机器之心

4+阅读 · 2022年9月25日

【ECCV2022】用于视频问题回答的视频图Transformer

【ECCV2022】用于视频问题回答的视频图Transformer

专知

0+阅读 · 2022年8月3日

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

极市平台

0+阅读 · 2022年7月31日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

面向网络多视频摘要的关联学习关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像复原问题尺度自适应性关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向众核处理器的高并行度视频编码关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

文本多粒度关系抽取半监督自适应学习的研究

国家自然科学基金

4+阅读 · 2012年12月31日

宽幅全色与多光谱遥感图像的高保真融合技术

国家自然科学基金

0+阅读 · 2012年12月31日

图像及视频盲超分辨率重建及其关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

移动视觉搜索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频编码并行设计与高效实现关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

Contextual Object Detection with Multimodal Large Language Models

Arxiv

0+阅读 · 2023年5月29日

A Benchmark Comparison of Imitation Learning-based Control Policies for Autonomous Racing

Arxiv

0+阅读 · 2023年5月28日

Non-Sequential Graph Script Induction via Multimedia Grounding

Arxiv

0+阅读 · 2023年5月27日

How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers

Arxiv

0+阅读 · 2023年5月26日

EgoHumans: An Egocentric 3D Multi-Human Benchmark

Arxiv

0+阅读 · 2023年5月25日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Spatially Consistent Representation Learning

Arxiv

14+阅读 · 2021年3月10日

已删除

Arxiv

32+阅读 · 2020年3月23日

VIP会员

相关主题

多模态提示学习

预训练模型

相关VIP内容

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【CVPR2023】带缺失模态多模态提示的视觉识别

【CVPR2023】带缺失模态多模态提示的视觉识别

专知会员服务

23+阅读 · 2023年3月10日

【CVPR2023】基础模型驱动弱增量学习的语义分割

【CVPR2023】基础模型驱动弱增量学习的语义分割

专知会员服务

18+阅读 · 2023年3月2日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR2022】循环动态嵌入的视频目标分割

【CVPR2022】循环动态嵌入的视频目标分割

专知会员服务

19+阅读 · 2022年5月16日

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

专知会员服务

34+阅读 · 2022年3月13日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知会员服务

33+阅读 · 2021年3月7日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【NeurIPS2025】迈向鲁棒的零样本强化学习

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

【普林斯顿博士论文】量化、评估与缓解现代机器学习系统中的风险

遥感中基于深度学习的领域自适应方法：全面综述

相关资讯

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知

1+阅读 · 2022年11月26日

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

PaperWeekly

2+阅读 · 2022年10月24日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知

1+阅读 · 2022年10月20日

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

机器之心

4+阅读 · 2022年9月25日

【ECCV2022】用于视频问题回答的视频图Transformer

【ECCV2022】用于视频问题回答的视频图Transformer

专知

0+阅读 · 2022年8月3日

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

极市平台

0+阅读 · 2022年7月31日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

高效的文本生成方法 — LaserTagger 现已开源

高效的文本生成方法 — LaserTagger 现已开源

TensorFlow

30+阅读 · 2020年2月27日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

面向网络多视频摘要的关联学习关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

图像复原问题尺度自适应性关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向众核处理器的高并行度视频编码关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

文本多粒度关系抽取半监督自适应学习的研究

国家自然科学基金

4+阅读 · 2012年12月31日

宽幅全色与多光谱遥感图像的高保真融合技术

国家自然科学基金

0+阅读 · 2012年12月31日

图像及视频盲超分辨率重建及其关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

移动视觉搜索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

视频编码并行设计与高效实现关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

Contextual Object Detection with Multimodal Large Language Models

Arxiv

0+阅读 · 2023年5月29日

A Benchmark Comparison of Imitation Learning-based Control Policies for Autonomous Racing

Arxiv

0+阅读 · 2023年5月28日

Non-Sequential Graph Script Induction via Multimedia Grounding

Arxiv

0+阅读 · 2023年5月27日

How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers

Arxiv

0+阅读 · 2023年5月26日

EgoHumans: An Egocentric 3D Multi-Human Benchmark

Arxiv

0+阅读 · 2023年5月25日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Spatially Consistent Representation Learning

Arxiv

14+阅读 · 2021年3月10日

已删除

Arxiv

32+阅读 · 2020年3月23日

微信扫码咨询专知VIP会员