The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present \textbf{Video-BrowseComp}, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.


翻译:自主智能体的发展正在重新定义信息获取方式,从被动检索转向主动、开放式的网络研究。然而,尽管文本与静态多模态智能体已取得快速进展,但在处理网络中最具动态性的模态——视频方面,仍存在显著的模态鸿沟。现有的视频基准测试主要聚焦于被动感知,即向模型提供经过筛选的视频片段,而无需进行外部检索。它们无法评估智能体视频研究能力,这种研究需要主动查询视频时间线、交叉引用分散的证据,并基于开放网络验证主张。为弥补这一空白,我们提出了 **Video-BrowseComp**,这是一个包含210个问题的挑战性基准测试,专为开放网络下的智能体视频推理而设计。与先前基准测试不同,Video-BrowseComp强制要求依赖时序视觉证据,确保答案无法仅通过文本搜索获得,而必须通过导航视频时间线来验证外部主张。我们对最先进模型的评估揭示了一个关键瓶颈:即使是像GPT-5.1(带搜索功能)这样的先进搜索增强模型,其准确率也仅为15.24%。我们的分析表明,这些模型在很大程度上依赖于文本代理,在元数据丰富的领域(例如带有剧情摘要的电视节目)表现出色,但在元数据稀疏、动态的环境中(例如体育、游戏实况)则表现不佳,而这些环境恰恰需要视觉基础。作为首个开放网络视频研究基准测试,Video-BrowseComp推动该领域从被动感知迈向主动视频推理。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年8月20日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员