Large Language Models (LLMs) have demonstrated substantial capabilities in conversational AI applications, yet their susceptibility to dialogue breakdowns poses significant challenges to deployment reliability and user trust. This paper introduces a "Detect, Explain, Escalate" framework to manage dialogue breakdowns in LLM-powered agents, emphasizing resource-efficient operation. Our approach integrates two key strategies: (1) We fine-tune a compact 8B-parameter model, augmented with teacher-generated reasoning traces, which serves as an efficient real-time breakdown detector and explainer. This model demonstrates robust classification and calibration on English and Japanese dialogues, and generalizes to the BETOLD dataset, improving accuracy by 7% over its baseline. (2) We systematically evaluate frontier LLMs using advanced prompting (few-shot, chain-of-thought, analogical reasoning) for high-fidelity breakdown assessment. These are integrated into an "escalation" architecture where our efficient detector defers to larger models only when necessary, substantially reducing operational costs and computational overhead. Our fine-tuned model and prompting strategies achieve state-of-the-art performance on DBDC5 and strong results on BETOLD, outperforming specialized classifiers on DBDC5 and narrowing the performance gap to larger proprietary models. The proposed monitor-escalate pipeline reduces inference costs by 54%, providing a cost-effective and interpretable solution for robust conversational AI in high-impact domains. Code and models will be publicly released.


翻译:大型语言模型(LLM)在对话式人工智能应用中展现出强大能力,但其对对话崩溃的敏感性给部署可靠性和用户信任带来重大挑战。本文提出一种“检测、解释、升级”框架来管理LLM驱动智能体中的对话崩溃问题,并强调资源高效运行。我们的方法整合了两个关键策略:(1)我们微调了一个紧凑的80亿参数模型,该模型通过教师生成的推理轨迹进行增强,可作为高效的实时崩溃检测器与解释器。该模型在英语和日语对话中展现出稳健的分类与校准能力,并能泛化至BETOLD数据集,较基线模型准确率提升7%。(2)我们系统评估了前沿LLM使用高级提示技术(少样本、思维链、类比推理)进行高保真崩溃评估的能力。这些技术被集成至“升级”架构中,其中我们的高效检测器仅在必要时将任务移交至更大模型,从而显著降低运营成本与计算开销。我们的微调模型与提示策略在DBDC5数据集上达到最先进性能,在BETOLD数据集上取得优异结果,在DBDC5上超越专用分类器,并缩小了与大型专有模型的性能差距。所提出的监控-升级流程将推理成本降低54%,为高影响领域中的稳健对话式人工智能提供了经济高效且可解释的解决方案。代码与模型将公开发布。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员