【NeurIPS2024】MECD：解锁视频推理中的多事件因果发现 - 专知VIP

会员服务 ·

0

NeurIPS 2024 · 因果发现 · 视频因果推理 ·

【NeurIPS2024】MECD：解锁视频推理中的多事件因果发现

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视频因果推理旨在从因果关系的角度实现对视频内容的高级理解。然而，当前的视频推理任务范围有限，主要是在问答范式中执行，且集中于只包含单一事件和简单因果关系的短视频，缺乏对多事件视频的全面和结构化的因果分析。为填补这一空白，我们引入了一项新任务和数据集：多事件因果发现（MECD）。其目标是在长视频中揭示按时间顺序分布的事件之间的因果关系。给定视觉片段和事件的文本描述，MECD要求识别这些事件之间的因果关联，以生成一个全面、结构化的事件级视频因果图，解释为何以及如何最终结果事件发生。为应对MECD，我们设计了一个受Granger因果方法启发的新框架，使用基于掩码的高效事件预测模型进行事件Granger测试。通过比较掩码和未掩码的前提事件时预测的结果事件，估算因果关系。此外，我们还集成了因果推断技术，例如前门调整和反事实推理，以应对MECD中的因果混淆和虚幻因果等挑战。实验验证了我们框架在提供多事件视频因果关系上的有效性，分别超越了GPT-4o和VideoLLaVA 5.7%和4.1%。

成为VIP会员查看完整内容

0

相关内容

NeurIPS 2024

【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调

【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调

专知会员服务

17+阅读 · 6月13日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

16+阅读 · 2023年12月10日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

38+阅读 · 2023年4月11日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

23+阅读 · 2022年8月2日

【ICLR2022】序列生成的目标侧数据增强

【ICLR2022】序列生成的目标侧数据增强

专知会员服务

22+阅读 · 2022年2月14日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

18+阅读 · 2021年9月13日

【CIKM2021】基于检索的个性化聊天机器人模型IMPChat

专知会员服务

15+阅读 · 2021年8月25日

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

专知会员服务

27+阅读 · 2021年5月25日

【CVPR2020】视觉推理-可微自适应计算时间

【CVPR2020】视觉推理-可微自适应计算时间

专知会员服务

12+阅读 · 2020年4月28日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

26+阅读 · 2020年3月24日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

7+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

149+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

35+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

85+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

166+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

378+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

64+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

133+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

72+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

VIP会员

相关主题

视频因果推理

相关VIP内容

【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调

【SIGIR2024】GPT4Rec: 用于流式推荐的图提示微调

专知会员服务

17+阅读 · 6月13日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

16+阅读 · 2023年12月10日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

38+阅读 · 2023年4月11日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

23+阅读 · 2022年8月2日

【ICLR2022】序列生成的目标侧数据增强

【ICLR2022】序列生成的目标侧数据增强

专知会员服务

22+阅读 · 2022年2月14日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

18+阅读 · 2021年9月13日

【CIKM2021】基于检索的个性化聊天机器人模型IMPChat

专知会员服务

15+阅读 · 2021年8月25日

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

【SIGIR2021】整合搜索行为和好友网络的基于群组的个性化搜索

专知会员服务

27+阅读 · 2021年5月25日

【CVPR2020】视觉推理-可微自适应计算时间

【CVPR2020】视觉推理-可微自适应计算时间

专知会员服务

12+阅读 · 2020年4月28日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

26+阅读 · 2020年3月24日

热门VIP内容

相关资讯

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

相关基金

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

7+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

149+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

35+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

85+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

166+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

378+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

64+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

133+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

72+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员