项目名称: 文本分类中的文本图表示模型和结构化稀疏模型研究
项目编号: No.61472183
项目类型: 面上项目
立项/批准年度: 2015
项目学科: 计算机科学学科
项目作者: 戴新宇
作者单位: 南京大学
项目金额: 80万元
中文摘要: 文本分类是自然语言处理研究中的一个经典问题。文本分类技术在网络舆情分析、专利分析等领域具有广泛的应用。本课题针对目前文本分类研究中文本表示模型表达能力不足,分类模型不能充分利用结构化信息等问题,研究基于文本结构化表示的结构化稀疏模型。首先,探索研究结合词法、句法、语义及篇章信息,能够蕴含多层次结构化信息的文本图表示模型;其次,基于文本结构化表示的特性,提出能够针对文本图表示的结构特性,将特征选择和模型学习相融合、具有高压缩性、可解释性等良好性质的结构化稀疏模型;给出结构化稀疏模型优化学习算法;最终基于上述理论成果,构建高性能的文本分类系统。本项目的研究成果将对自然语言处理中涉及结构化特征选择和分类模型的任务提供广泛的借鉴意义。本项目可望在重要的国际国内期刊、会议上发表高质量论文5-8篇,申请发明专利2-3项,研制开源平台系统1个,培养学生5-8名。
中文关键词: 文本图表示模型;稀疏模型;文本分类
英文摘要: Text categorization is an important research area for large-scale information retrieval. We propose to do some deep research on text representation and learning model for the application of text categorization. Firstly, we present a text graph representation with rich structured features of lexicon, syntax and semantic knowledge. Secondly,the sparse model with structured regularizer will be designed which can make directly use of the structured features within the text. And we will also present the optimization method for our structured sparse model. Based on our theoretical work, a high performance text categorization system will be designed and implemented. Our work can also be applied to other tasks of structured learning with structured representation in natural language processing area. In this project, we will try to publish several high quality journal papers or conference papers. Two or three patents will be submitted. And we will build a open source platform for text representation and text categorization.
英文关键词: Text Graph Representation;Sparse Model;Text Categorization