Effectively evaluating deep research agents that autonomously search the web, analyze information, and generate reports remains a major challenge, particularly when it comes to assessing long reports and giving detailed feedback on their intermediate steps. To address these gaps, we introduce Deep Research Comparator, a platform that offers a holistic framework for deep research agent hosting, side-by-side comparison, fine-grained human feedback collection, and ranking calculation. Given a user query, our platform displays the final reports from two different agents along with their intermediate steps during generation. Annotators can evaluate the overall quality of final reports based on side-by-side comparison, and also provide detailed feedback separately by assessing intermediate steps or specific text spans within the final report. Furthermore, we develop Simple Deepresearch, an end-to-end agent scaffold. This scaffold serves as a baseline that facilitates the easy integration of various large language models to transform them into deep research agents for evaluation. To demonstrate the platform's utility for deep research agent development, we have collected real user preference data from 17 annotators on three deep research agents. A demo video of our platform can be found at https://www.youtube.com/watch?v=g4d2dnbdseg.


翻译:有效评估能够自主搜索网络、分析信息并生成报告的深度研究智能体仍然是一项重大挑战,尤其是在评估长篇报告并对其中间步骤提供详细反馈方面。为弥补这些不足,我们推出了深度研究比较器平台,该平台为深度研究智能体的托管、并排比较、细粒度人工反馈收集以及排名计算提供了一个整体框架。给定用户查询后,我们的平台会展示来自两个不同智能体的最终报告及其生成过程中的中间步骤。标注者可以基于并排比较评估最终报告的整体质量,也可以通过评估中间步骤或最终报告中的特定文本片段来分别提供详细反馈。此外,我们开发了Simple Deepresearch,这是一个端到端的智能体脚手架。该脚手架作为一个基线,便于轻松集成各种大语言模型,将其转化为用于评估的深度研究智能体。为展示该平台在深度研究智能体开发中的实用性,我们已从17名标注者处收集了关于三个深度研究智能体的真实用户偏好数据。我们平台的演示视频可在 https://www.youtube.com/watch?v=g4d2dnbdseg 找到。

0
下载
关闭预览

相关内容

读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员