Spoken Language Understanding (SLU) consists of two sub-tasks: intent detection (ID) and slot filling (SF). Given its broad range of real-world applications, enhancing SLU for practical deployment is increasingly critical. Profile-based SLU addresses ambiguous user utterances by incorporating context awareness (CA), user profiles (UP), and knowledge graphs (KG) to support disambiguation, thereby advancing SLU research toward real-world applicability. However, existing SLU datasets still fall short in representing real-world scenarios. Specifically, (1) CA uses one-hot vectors for representation, which is overly idealized, and (2) models typically focuses solely on predicting intents and slot labels, neglecting the reasoning process that could enhance performance and interpretability. To overcome these limitations, we introduce VRSLU, a novel SLU dataset that integrates both Visual images and explicit Reasoning. For over-idealized CA, we use GPT-4o and FLUX.1-dev to generate images reflecting users' environments and statuses, followed by human verification to ensure quality. For reasoning, GPT-4o is employed to generate explanations for predicted labels, which are then refined by human annotators to ensure accuracy and coherence. Additionally, we propose an instructional template, LR-Instruct, which first predicts labels and then generates corresponding reasoning. This two-step approach helps mitigate the influence of reasoning bias on label prediction. Experimental results confirm the effectiveness of incorporating visual information and highlight the promise of explicit reasoning in advancing SLU.


翻译:口语理解(SLU)包含两个子任务:意图检测(ID)与槽位填充(SF)。鉴于其在现实世界中的广泛应用,提升SLU的实际部署能力日益关键。基于用户画像的SLU通过整合上下文感知(CA)、用户画像(UP)与知识图谱(KG)来支持歧义消解,从而推动SLU研究向实际应用迈进。然而,现有SLU数据集在反映真实场景方面仍显不足。具体而言:(1)CA采用独热向量进行表示,这过于理想化;(2)模型通常仅关注预测意图与槽位标签,忽视了可能提升性能与可解释性的推理过程。为克服这些局限,我们提出了VRSLU——一个融合视觉图像与显式推理的新型SLU数据集。针对过度理想化的CA,我们使用GPT-4o与FLUX.1-dev生成反映用户环境与状态的图像,并通过人工验证确保质量。对于推理部分,GPT-4o被用于生成预测标签的解释,再由人工标注者精修以保证准确性与连贯性。此外,我们提出了一种指令模板LR-Instruct,其先预测标签再生成相应推理。这种两步式方法有助于减轻推理偏差对标签预测的影响。实验结果证实了融入视觉信息的有效性,并凸显了显式推理在推进SLU发展中的潜力。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
32+阅读 · 5月18日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员