Dialogue topic segmentation supports summarization, retrieval, memory management, and conversational continuity. Despite decades of prior work, evaluation practice in dialogue topic segmentation remains dominated by strict boundary matching and F1-based metrics, even as modern LLM-based conversational systems increasingly rely on segmentation to manage conversation history beyond the model's fixed context window, where unstructured context accumulation degrades efficiency and coherence. This paper introduces an evaluation objective for dialogue topic segmentation that treats boundary density and segment coherence as primary criteria, alongside window-tolerant F1 (W-F1). Through extensive cross-dataset empirical evaluation, we show that reported performance differences across dialogue segmentation benchmarks are driven not by model quality, but by annotation granularity mismatches and sparse boundary labels. This indicates that many reported improvements arise from evaluation artifacts rather than improved boundary detection. We evaluated multiple, structurally distinct dialogue segmentation strategies across eight dialogue datasets spanning task-oriented, open-domain, meeting-style, and synthetic interactions. Across these settings, we observe high segment coherence combined with extreme oversegmentation relative to sparse labels, producing misleadingly low exact-match F1 scores. We show that topic segmentation is best understood as selecting an appropriate granularity rather than predicting a single correct boundary set. We operationalize this view by explicitly separating boundary scoring from boundary selection.


翻译:对话主题分割技术为摘要生成、信息检索、内存管理及会话连续性提供了关键支持。尽管相关研究已开展数十年,该领域的评估实践仍主要依赖于严格边界匹配和基于F1的度量指标。然而,随着现代基于大语言模型的对话系统日益依赖主题分割来管理超出模型固定上下文窗口的对话历史——其中非结构化的上下文累积会降低效率与连贯性——传统评估方式的局限性日益凸显。本文提出了一种对话主题分割的评估框架,将边界密度与段落连贯性作为核心评估标准,并辅以窗口容错F1(W-F1)指标。通过跨数据集的广泛实证评估,我们发现不同对话分割基准测试中报告的性能差异并非源于模型质量,而是由标注粒度失配和稀疏边界标签所导致。这表明许多已报道的性能提升源于评估方法本身而非边界检测能力的真实改进。我们在涵盖任务导向、开放域、会议风格及合成对话的八个数据集上,评估了多种结构各异的对话分割策略。在所有实验场景中,我们观察到系统在保持高段落连贯性的同时,相对于稀疏标注存在严重的过分割现象,从而导致基于精确匹配的F1分数产生误导性偏低的结果。研究表明,主题分割应被理解为选择适当粒度层级的过程,而非预测单一正确的边界集合。我们通过明确分离边界评分与边界选择操作,将这一观点进行了具体实践。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员