【TPAMI2024】增强视频-语言表示的结构时空对齐方法 - 专知VIP

会员服务 ·

11

TPAMI 2024 · 大规模视频语言模型 · 场景图 · 对齐学习 ·

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在对大规模视频-语言模型（VLMs）进行预训练的过程中，尽管在各种下游视频-语言任务中展示了巨大的潜力，现有的VLMs仍可能存在一些常见的局限性，例如粗粒度的跨模态对齐、时间动态的欠建模以及视频-语言视图的脱节。在本研究中，我们针对这些问题提出了一种细粒度的结构时空对齐学习方法（即Finsta），以增强VLMs的表现。

首先，我们使用细粒度的场景图（SG）结构来表示输入文本和视频，并将这两种模态统一到一个整体场景图（HSG）中，以桥接两种模态之间的差异。然后，我们构建了一个基于SG的框架，其中文本场景图（TSG）通过图Transformer进行编码，而视频动态场景图（DSG）和整体场景图（HSG）则通过一种新颖的循环图Transformer进行空间和时间特征传播。此外，我们还设计了一种时空高斯差分图Transformer，以增强对物体在空间和时间维度上变化的感知。

接下来，基于TSG和DSG的细粒度结构特征，我们分别进行以物体为中心的空间对齐和以谓词为中心的时间对齐，从而在空间性和时间性上增强视频-语言的基础。我们将该方法设计为一个即插即用的系统，可以集成到现有的经过良好训练的VLMs中以进一步增强表示能力，而无需从头开始训练或在下游应用中依赖场景图注释。

在6个代表性的视频-语言建模任务和12个数据集的标准和长视频场景中，Finsta在细调和零样本设置中持续改进了现有的13个高性能VLMs，并显著刷新了当前的最先进的终端任务性能。

https://www.zhuanzhi.ai/paper/221d21a6861c4635f618bc1cc84cfbd0

成为VIP会员查看完整内容

16

相关内容

TPAMI 2024

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

27+阅读 · 3月10日

【AAAI2024】基于对比上下文学习的自定义语言模型响应

【AAAI2024】基于对比上下文学习的自定义语言模型响应

专知会员服务

24+阅读 · 2月1日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

22+阅读 · 2023年11月8日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

27+阅读 · 2023年10月26日

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

专知会员服务

21+阅读 · 2023年8月22日

【CVPR2023】探索少样本图像生成中的不兼容知识迁移

【CVPR2023】探索少样本图像生成中的不兼容知识迁移

专知会员服务

20+阅读 · 2023年4月18日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

18+阅读 · 2021年9月23日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

14+阅读 · 2021年6月26日

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

专知会员服务

37+阅读 · 2021年1月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知会员服务

128+阅读 · 2020年6月7日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

18+阅读 · 2022年12月11日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

16+阅读 · 2020年6月26日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

19+阅读 · 2019年9月30日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

t-设计与多重传递群和Z_4码

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

32+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

12+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

142+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

32+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

78+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

151+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

60+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

353+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

103+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

54+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

59+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

18+阅读 · 2023年3月17日

VIP会员

相关主题

大规模视频语言模型

相关VIP内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

27+阅读 · 3月10日

【AAAI2024】基于对比上下文学习的自定义语言模型响应

【AAAI2024】基于对比上下文学习的自定义语言模型响应

专知会员服务

24+阅读 · 2月1日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

22+阅读 · 2023年11月8日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

27+阅读 · 2023年10月26日

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

专知会员服务

21+阅读 · 2023年8月22日

【CVPR2023】探索少样本图像生成中的不兼容知识迁移

【CVPR2023】探索少样本图像生成中的不兼容知识迁移

专知会员服务

20+阅读 · 2023年4月18日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

18+阅读 · 2021年9月23日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

14+阅读 · 2021年6月26日

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

【AAAI2021】学习场景图之间的相似度实现图像到图像的检索

专知会员服务

37+阅读 · 2021年1月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知会员服务

128+阅读 · 2020年6月7日

热门VIP内容

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

18+阅读 · 2022年12月11日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

16+阅读 · 2020年6月26日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

19+阅读 · 2019年9月30日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

t-设计与多重传递群和Z_4码

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

32+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

12+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

142+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

32+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

78+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

151+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

60+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

353+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

103+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

54+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

59+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

18+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员