时间句子定位(Temporal Sentence Grounding,TSG) 旨在从未经剪辑的视频中识别出与给定文本查询语义对应的相关时刻。尽管现有研究在该任务上已取得了显著进展,但它们往往忽视了视频与文本查询之间伪相关(spurious correlations)的问题。这些伪相关主要源于两个因素:(1)文本数据中固有的偏差,例如特定动词或短语的频繁共现;(2)模型容易过拟合视频内容中的显著或重复模式。这些偏差会误导模型将文本线索与错误的视频片段建立关联,从而导致预测不可靠,并在处理分布外样本时泛化能力较差。 为克服这些局限性,我们提出了一种新颖的 TSG 框架,通过因果干预与反事实推理(causal intervention and counterfactual reasoning),利用因果推理消除伪相关性并增强模型的鲁棒性。具体而言,我们首先从因果视角出发,使用结构性因果模型(structural causal model)对 TSG 任务进行建模。随后,为应对源自文本中对特定动词或短语偏好的不可观测混淆因子(unobserved confounders),我们提出了一种文本因果干预方法(textual causal intervention),基于 do-演算(do-calculus)来估计因果效应。此外,我们还进行视觉反事实推理(visual counterfactual reasoning),通过构造一个只包含视频特征、不包含查询与融合模态特征的反事实场景,从而隔离并移除视频本身对总体效果的影响,实现模型去偏。 在多个公开数据集上的实验结果表明,所提出的方法具有优越的性能。代码可通过以下地址获取:https://github.com/Tangkfan/CICR

成为VIP会员查看完整内容
7

相关内容

【CVPR2025】CoLLM:面向组合图像检索的大语言模型
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
专知会员服务
13+阅读 · 2021年10月11日
专知会员服务
22+阅读 · 2021年2月6日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
16+阅读 · 2023年6月6日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
10+阅读 · 2020年11月26日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
53+阅读 · 2018年12月11日
VIP会员
相关VIP内容
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
【CVPR2023】基础模型驱动弱增量学习的语义分割
专知会员服务
18+阅读 · 2023年3月2日
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
专知会员服务
13+阅读 · 2021年10月11日
专知会员服务
22+阅读 · 2021年2月6日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
Arxiv
16+阅读 · 2023年6月6日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
10+阅读 · 2020年11月26日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
53+阅读 · 2018年12月11日
微信扫码咨询专知VIP会员