Large Language Models (LLMs) increasingly exhibit over-refusal - erroneously rejecting benign queries due to overly conservative safety measures - a critical functional flaw that undermines their reliability and usability. Current methods for testing this behavior are demonstrably inadequate, suffering from flawed benchmarks and limited test generation capabilities, as highlighted by our empirical user study. To the best of our knowledge, this paper introduces the first evolutionary testing framework, ORFuzz, for the systematic detection and analysis of LLM over-refusals. ORFuzz uniquely integrates three core components: (1) safety category-aware seed selection for comprehensive test coverage, (2) adaptive mutator optimization using reasoning LLMs to generate effective test cases, and (3) OR-Judge, a human-aligned judge model validated to accurately reflect user perception of toxicity and refusal. Our extensive evaluations demonstrate that ORFuzz generates diverse, validated over-refusal instances at a rate (6.98% average) more than double that of leading baselines, effectively uncovering vulnerabilities. Furthermore, ORFuzz's outputs form the basis of ORFuzzSet, a new benchmark of 1,855 highly transferable test cases that achieves a superior 63.56% average over-refusal rate across 10 diverse LLMs, significantly outperforming existing datasets. ORFuzz and ORFuzzSet provide a robust automated testing framework and a valuable community resource, paving the way for developing more reliable and trustworthy LLM-based software systems.


翻译:大语言模型(LLMs)日益表现出过度拒绝行为——即由于过于保守的安全机制而错误地拒绝良性查询,这是一种严重削弱其可靠性与可用性的功能性缺陷。如我们实证用户研究所揭示,当前测试该行为的方法存在明显不足,包括基准测试的缺陷与测试生成能力的局限。据我们所知,本文首次提出了一个进化测试框架ORFuzz,用于系统性地检测与分析LLM的过度拒绝行为。ORFuzz独特地整合了三个核心组件:(1)基于安全类别的种子选择以实现全面的测试覆盖;(2)利用推理型LLM进行自适应变异器优化以生成有效的测试用例;(3)OR-Judge,一个经过验证、与人类判断对齐的评估模型,能准确反映用户对有害内容与拒绝行为的感知。我们的大规模评估表明,ORFuzz能以平均6.98%的比率生成多样化、经过验证的过度拒绝实例,该比率超过领先基线方法的两倍以上,有效揭示了模型脆弱性。此外,ORFuzz的输出构成了ORFuzzSet的基础——这是一个包含1,855个高可迁移性测试用例的新基准数据集,在10个多样化LLM上实现了平均63.56%的优异过度拒绝率,显著优于现有数据集。ORFuzz与ORFuzzSet提供了一个稳健的自动化测试框架和宝贵的社区资源,为开发更可靠、可信赖的基于LLM的软件系统铺平了道路。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | GMNN: Graph Markov Neural Networks
开放知识图谱
20+阅读 · 2020年2月14日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员