让机器听懂你的意图:首届中文人机对话技术评测用户意图领域分类比赛参赛历程

2017 年 9 月 21 日 PaperWeekly 唐杰聪

作者丨唐杰聪

单位丨华南农业大学硕士生

研究方向丨NLP,机器学习

指导老师丨黄沛杰副教授


1. 前言


近年来,人机对话技术,也称为口语对话系统(spoken dialogue system,SDS)受到了学术界和产业界的广泛关注。在第六届全国社会媒体处理大会(SMP 2017)上,由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学和科大讯飞股份有限公司承办的 SMP 2017 中文人机对话技术评测(ECDT),为人机对话技术相关的研发人员提供了一个良好的沟通平台。 


我们华南农业大学口语对话系统研究室(scau_SIGSDS)参加了这次评测的用户意图领域分类任务。主办方根据是否仅允许使用其提供的评测数据进行训练和开发分为封闭式和开放式两项评测。在最后的评测测试中,我们的系统取得了封闭式和开放式两项第一名。单项(封闭式和开放式)比赛前三名的结果如下所示。前十名平均评测 F 值分别是 0.8993(开放式)和 0.8995(开放式)。详细的比赛结果可见官方发布的排行榜[1]


  • 封闭式评测



  • 开放式评测



口语语言理解(spoken language understanding, SLU)是 SDS 中的重要环节,而话语领域分类(domain classification)则是 SLU 的关键任务之一[2]。话语领域分类的任务是把话语划分到定义好的不同领域标签[3],进而将话语正确地分进不同的 SLU 子系统。如用户提出“帮我写一封邮件”,系统则应该将其划分到“邮件”领域之中,对该话语进行专门针对“邮件”领域的语言理解。


由于口语对话具有长度短小的特点,领域分类通常会被看作是短文本分类。早期的领域分类多采用较为复杂的人工特征,如语法信息、韵律信息、词汇信息等[4][5],分类模型采用传统的统计学习模型,如随机森林、隐马尔科夫、条件随机场等。


深度学习流行以来,许多研究者开始用深度学习方法解决自然语言处理(natural language processing, NLP)任务,许多任务得到了长足的发展,也包括了领域分类[3][6][7]。代表性的模型包括了深度置信网络(deep belief network, DBN)、卷积神经网络(convolutional neural networks, CNN)和长短期记忆网络(long and short-term memory, LSTM)等。 


我们也采用了 LSTM 分类模型,并针对样本训练集数量有限的特点,采用基于数据的领域关键词提取算法以及构建外部领域知识表(在开放式评测中),进一步提升领域分类效果。


2. 方案及结果


任务概述


用户意图领域分类比赛数据集包含 31 个话语类别,包括聊天类(chat)和垂类(30 个垂直领域)。任务很明确,就是正确地将用户的输入话语分类到相应的领域中,如:



特征表达和模型选择 


我们尝试了多种特征表达方式,包括 BOW、onehot、词向量等,并对比了随机森林、CNN、LSTM 等分类模型。为了方便,在验证和开发我们采用了正确率的评价指标。


通过十折交叉验证,我们发现采用词向量(由 1.5G 微博数据训练)特征表达以及 LSTM 模型的 31 分类器取得了最佳的验证结果,分类正确率达到 91.38%。在进一步增加到 10G 微博数据训练词向量并结合词汇分类体系(如 Hownet)进行词语向量表达修正后分类正确率达到 91.73%。 


基于LSTM的领域分类 


相比于 CNN,循环神经网络(Recurrent Neural Networks, RNN)有利于学习到句子中字词间的长距离依赖关系,但存在梯度消失/发散问题。目前常用的是 RNN 的一些变体,如 LSTM、GRU(Gated Recurrent Unit)等,他们通过门控机制很大程度上缓解了 RNN 的梯度消失问题,并防止梯度发散。 


我们在给定数据集上验证了不同 RNN 变体的领域分类效果,包括普通的 LSTM、GRU 以及带隐层的 LSTM。而他们的验证分类正确率分别是 91.73%、91.91%、92.04%。因此,我们选择了在正确率上略有优势的带隐层的 LSTM。 


在开发集做预测时,我们采用最佳 10 折交叉验证的超参数组合的 10 个模型进行集成投票,正确率达到 92.22%。然而,在对模型结果的 badcase 分析时,我们依然发现了一些在人看来类别显而易见的样例被模型错分。这主要是由于数据量的不足引起的,一些具有分类作用的特征字词组合无法在模型中起足够的作用。


针对这个问题,在技术架构中,我们在 LSTM 分类器前面增加一个基于领域关键词的领域识别模块,并针对开放式测试额外添上了基于领域知识表的领域识别模块。 


基于领域关键词的领域识别 


对于封闭式评测,我们采用了基于数据的领域关键词提取算法,通过对训练集和开发集进行统计,抽取足够置信度和支持率的 2 和 3 字“词”构成的领域关键词表。对于开放式评测,我们进一步结合人工知识扩展了领域关键词表,增添了主办方提供的原始数据以外的领域关键词。在开发集上的测试表明,分类正确率由之前的 92.22% 分别提升到 92.74%(封闭式)和 92.87%(开放式)。 


基于领域知识表的领域识别 


对于开放式评测,通过分析领域话语特点,我们针对若干个领域(如health),结合外部信息构建了领域知识表(如疾病名列表)。通过基于领域知识表的领域识别,开发集上的测试结果进一步提升到了 93%。


3. 参考文献


[1] http://ir.hit.edu.cn/SMP2017-ECDT-RANK 

[2] Tur G, Deng L, Hakkani-Tür D, et al. Towards deeper understanding: Deep convex networks for semantic utterance classification[C]// Proceedings of the 37th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2012), 2012:5045-5048.

[3] Ravuri S, Stolcke A. A comparative study of recurrent neural network models for lexical domain classification C]// Proceedings of the 41th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2016), 2016: 6075-6079. 

[4] Haffner P, Tur G, Wright J H. Optimizing SVMs for complex call classification[C]// Proceedings of the 28th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2003), 2003: I-632-I-635. 

[5] Chelba C, Mahajan M, Acero A. Speech utterance classification[C]// Proceedings of the 28th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2003), 2003:I-280-I-283. 

[6] Sarikaya R, Hinton G E, Deoras A. Application of deep belief networks for natural language understanding[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014, 22(4):778-784. 

[7] Ravuri S, Stoicke A. A comparative study of neural network models for lexical intent classification[C]// Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2015), 2015: 368-374.


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多
2

相关内容

人机对话,是人工智能领域的一个子方向,通俗的讲就是让人可以通过人类的语言(即自然语言)与计算机进行交互。作为人工智能的终极难题之一,一个完整的人机对话系统涉及到的技术极为广泛,例如计算机科学中的语音技术,自然语言处理,机器学习,规划与推理,知识工程,甚至语言学和认知科学中的许多理论在人机对话中都有所应用。
【新书】图神经网络导论,清华大学刘知远老师著作
专知会员服务
361+阅读 · 2020年6月12日
专知会员服务
155+阅读 · 2020年4月21日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
78+阅读 · 2019年10月12日
SMP 2019 第三届中文人机对话技术评测顺利落幕
哈工大SCIR
12+阅读 · 2019年8月19日
SMP2019中文人机对话技术评测(ECDT)报名开始啦
哈工大SCIR
15+阅读 · 2019年4月17日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
2019语言与智能技术竞赛报名开启
中国计算机学会
16+阅读 · 2019年2月26日
刘挺 张伟男 | 人机对话
中国计算机学会
7+阅读 · 2017年9月19日
Arxiv
12+阅读 · 2019年2月28日
Symbolic Priors for RNN-based Semantic Parsing
Arxiv
3+阅读 · 2018年9月20日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员