We present ShoppingComp, a challenging real-world benchmark for rigorously evaluating LLM-powered shopping agents on three core capabilities: precise product retrieval, expert-level report generation, and safety critical decision making. Unlike prior e-commerce benchmarks, ShoppingComp introduces highly complex tasks under the principle of guaranteeing real products and ensuring easy verifiability, adding a novel evaluation dimension for identifying product safety hazards alongside recommendation accuracy and report quality. The benchmark comprises 120 tasks and 1,026 scenarios, curated by 35 experts to reflect authentic shopping needs. Results reveal stark limitations of current LLMs: even state-of-the-art models achieve low performance (e.g., 11.22% for GPT-5, 3.92% for Gemini-2.5-Flash). These findings highlight a substantial gap between research benchmarks and real-world deployment, where LLMs make critical errors such as failure to identify unsafe product usage or falling for promotional misinformation, leading to harmful recommendations. ShoppingComp fills the gap and thus establishes a new standard for advancing reliable and practical agents in e-commerce.


翻译:我们提出了ShoppingComp,这是一个具有挑战性的真实世界基准测试,用于严格评估基于大型语言模型(LLM)的购物代理在三个核心能力上的表现:精确的产品检索、专家级报告生成以及安全关键决策。与以往的电子商务基准不同,ShoppingComp在保证真实产品且易于验证的原则下引入了高度复杂的任务,并增加了一个新颖的评估维度,用于识别产品安全隐患,同时兼顾推荐准确性和报告质量。该基准包含120个任务和1,026个场景,由35位专家精心设计,以反映真实的购物需求。结果显示当前大型语言模型存在明显局限性:即使是尖端模型也表现不佳(例如,GPT-5为11.22%,Gemini-2.5-Flash为3.92%)。这些发现凸显了研究基准与真实世界部署之间的巨大差距,其中大型语言模型会犯下关键错误,例如未能识别不安全的产品使用方式或陷入促销误导信息,从而导致有害推荐。ShoppingComp填补了这一空白,从而为推进电子商务中可靠且实用的代理建立了新标准。

0
下载
关闭预览

相关内容

国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员