RAG (Retrieval-Augmented Generation) systems and web agents are increasingly evaluated on multi-hop deep search tasks, yet current practice suffers from two major limitations. First, most benchmarks leak the reasoning path in the question text, allowing models to follow surface cues rather than discover reasoning chains autonomously. Second, evaluation is typically reduced to a single pass rate, which collapses diverse behaviours into one score and obscures whether failures stem from inadequate search, poor knowledge use, or inappropriate refusal. To address these issues, we present WebDetective, a benchmark of hint-free multi-hop questions paired with a controlled Wikipedia sandbox that ensures full traceability of model actions, and a holistic evaluation framework that separates search sufficiency, knowledge utilisation, and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals systematic weaknesses across all architectures: models struggle with knowledge utilisation despite having sufficient evidence and demonstrate near-absent appropriate refusal when evidence is lacking. These patterns expose a fundamental gap: today's systems excel at executing given reasoning paths but fail when required to discover them. We develop an agentic workflow, EvidenceLoop, that explicitly targets the challenges our benchmark identifies, incorporating verification loops and systematic evidence tracking that improve both search and synthesis capabilities. This baseline demonstrates that WebDetective's diagnostic framework can guide concrete architectural improvements, establishing our benchmark as a critical tool for developing genuinely autonomous reasoning systems rather than pattern-following agents.


翻译:RAG(检索增强生成)系统和网络代理在多跳深度搜索任务上的评估日益普遍,但当前实践存在两大局限。首先,大多数基准测试在问题文本中泄露了推理路径,使得模型能够依赖表层线索而非自主发现推理链。其次,评估通常简化为单一通过率,将多样行为压缩为一个分数,掩盖了失败源于搜索不足、知识利用不佳还是不恰当拒绝。为解决这些问题,我们提出了WebDetective:一个由无提示多跳问题与受控维基百科沙箱组成的基准测试,确保模型行为的完全可追溯性;以及一个分离搜索充分性、知识利用和拒绝行为的整体评估框架。我们对25个前沿模型的评估揭示了所有架构的系统性弱点:尽管拥有充分证据,模型在知识利用上仍存在困难;且在证据缺失时几乎无法做出恰当拒绝。这些模式暴露了一个根本性差距:当前系统擅长执行给定的推理路径,但在需要自主发现时却表现不佳。我们开发了一个面向代理的工作流程EvidenceLoop,明确针对基准测试所识别的挑战,通过整合验证循环和系统化证据追踪,提升了搜索与综合能力。该基线表明,WebDetective的诊断框架能够指导具体的架构改进,确立本基准作为开发真正自主推理系统(而非模式跟随代理)的关键工具。

0
下载
关闭预览

相关内容

【ICML 2020 】小样本学习即领域迁移
专知会员服务
78+阅读 · 2020年6月26日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员