Large Video Language Models (LVLMs) have rapidly emerged as the focus of multimedia AI research. Nonetheless, when confronted with lengthy videos, these models struggle: their temporal windows are narrow, and they fail to notice fine-grained semantic shifts that unfold over extended durations. Moreover, mainstream text-based retrieval pipelines, which rely chiefly on surface-level lexical overlap, ignore the rich temporal interdependence among visual, audio, and subtitle channels. To mitigate these limitations, we propose TV-RAG, a training-free architecture that couples temporal alignment with entropy-guided semantics to improve long-video reasoning. The framework contributes two main mechanisms: \emph{(i)} a time-decay retrieval module that injects explicit temporal offsets into the similarity computation, thereby ranking text queries according to their true multimedia context; and \emph{(ii)} an entropy-weighted key-frame sampler that selects evenly spaced, information-dense frames, reducing redundancy while preserving representativeness. By weaving these temporal and semantic signals together, TV-RAG realises a dual-level reasoning routine that can be grafted onto any LVLM without re-training or fine-tuning. The resulting system offers a lightweight, budget-friendly upgrade path and consistently surpasses most leading baselines across established long-video benchmarks such as Video-MME, MLVU, and LongVideoBench, confirming the effectiveness of our model. The code can be found at https://github.com/AI-Researcher-Team/TV-RAG.


翻译:大规模视频语言模型(LVLMs)已迅速成为多媒体人工智能研究的焦点。然而,当面对长视频时,这些模型存在明显局限:其时间窗口狭窄,且难以察觉长时间跨度中细粒度的语义演变。此外,主流基于文本的检索流程主要依赖表层词汇重叠,忽略了视觉、音频与字幕通道间丰富的时序相互依赖关系。为缓解这些不足,本文提出TV-RAG——一种无需训练的架构,通过将时序对齐与熵引导的语义相结合来提升长视频推理能力。该框架贡献了两个核心机制:\emph{(i)} 时间衰减检索模块,将显式时间偏移注入相似度计算,从而依据真实的多媒体上下文对文本查询进行排序;\emph{(ii)} 熵加权关键帧采样器,选择等间距且信息密集的帧,在保持代表性的同时减少冗余。通过融合这些时序与语义信号,TV-RAG实现了双层推理机制,可直接嫁接至任意LVLM而无需重新训练或微调。由此构建的系统提供了一条轻量级、低成本的升级路径,并在Video-MME、MLVU和LongVideoBench等成熟长视频基准测试中持续超越多数主流基线模型,验证了本方法的有效性。代码发布于https://github.com/AI-Researcher-Team/TV-RAG。

0
下载
关闭预览

相关内容

MIMIC-IT:多模态上下文指令调优
专知会员服务
39+阅读 · 2023年6月11日
Python图像处理,366页pdf,Image Operators Image Processing in Python
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员