项目名称: 统计学习中文问句分类方法研究
项目编号: No.61365010
项目类型: 地区科学基金项目
立项/批准年度: 2013
项目学科: 自动化技术、计算机技术
项目作者: 苏磊
作者单位: 昆明理工大学
项目金额: 46万元
中文摘要: 问句分类是问答系统的关键部分,是制定答案抽取策略和精确定位答案的依据,问句分类准确性直接影响问答系统的性能。课题针对统计学习问句分类所面临的"数据稀疏"、"维数灾难"、"无标记数据利用"、"领域可移植"和"多标记分类"难点问题开展研究。在问句特征提取及高维降维方面,基于词汇语义相似度计算方法进行特征提取,基于有监督的局部线性嵌入非线性流形问句特征降维,可有效处理特征向量空间"数据稀疏"和"维数灾难"问题;在利用无标记类别问句样本方面,结合句法结构特征的树核函数,采用图上半监督学习方法问句分类,可有效处理"无标记数据利用"问题;在分类器领域适应性方面,融合问句相似度计算和标记传播方法,可有效解决"领域可移植"问题;在问句多标记分类方面,采用多示例多标记框架解决"多标记分类"问题。课题研究成果有非常重要的理论意义和实用价值。
中文关键词: 问答系统;问句分类;半监督学习;迁移学习;多标记学习
英文摘要: Question Classification, an important module of Question Answering system, is the foundation of answer extraction and answer location. A correct result of question classification could contribute to the strategy of answer extraction. To solve the problem
英文关键词: Question Answering System;Question Classification;Semi-Supervised Learning;Transfer Learning;Multi-Label Learning