项目名称: 文本分类中的文本图表示模型和结构化稀疏模型研究

项目编号: No.61472183

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 计算机科学学科

项目作者: 戴新宇

作者单位: 南京大学

项目金额: 80万元

中文摘要: 文本分类是自然语言处理研究中的一个经典问题。文本分类技术在网络舆情分析、专利分析等领域具有广泛的应用。本课题针对目前文本分类研究中文本表示模型表达能力不足,分类模型不能充分利用结构化信息等问题,研究基于文本结构化表示的结构化稀疏模型。首先,探索研究结合词法、句法、语义及篇章信息,能够蕴含多层次结构化信息的文本图表示模型;其次,基于文本结构化表示的特性,提出能够针对文本图表示的结构特性,将特征选择和模型学习相融合、具有高压缩性、可解释性等良好性质的结构化稀疏模型;给出结构化稀疏模型优化学习算法;最终基于上述理论成果,构建高性能的文本分类系统。本项目的研究成果将对自然语言处理中涉及结构化特征选择和分类模型的任务提供广泛的借鉴意义。本项目可望在重要的国际国内期刊、会议上发表高质量论文5-8篇,申请发明专利2-3项,研制开源平台系统1个,培养学生5-8名。

中文关键词: 文本图表示模型;稀疏模型;文本分类

英文摘要: Text categorization is an important research area for large-scale information retrieval. We propose to do some deep research on text representation and learning model for the application of text categorization. Firstly, we present a text graph representation with rich structured features of lexicon, syntax and semantic knowledge. Secondly,the sparse model with structured regularizer will be designed which can make directly use of the structured features within the text. And we will also present the optimization method for our structured sparse model. Based on our theoretical work, a high performance text categorization system will be designed and implemented. Our work can also be applied to other tasks of structured learning with structured representation in natural language processing area. In this project, we will try to publish several high quality journal papers or conference papers. Two or three patents will be submitted. And we will build a open source platform for text representation and text categorization.

英文关键词: Text Graph Representation;Sparse Model;Text Categorization

成为VIP会员查看完整内容
0

相关内容

图神经网络综述
专知会员服务
197+阅读 · 2022年1月9日
专知会员服务
15+阅读 · 2021年10月4日
专知会员服务
90+阅读 · 2021年4月18日
专知会员服务
71+阅读 · 2021年3月27日
最新《图神经网络模型与应用》综述论文
专知会员服务
293+阅读 · 2020年8月2日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
赛尔原创@EMNLP 2021 | 基于稀疏子网络的领域迁移
哈工大SCIR
0+阅读 · 2022年4月1日
WWWJ | 基于多视图表示学习的专利分类
图与推荐
3+阅读 · 2021年9月15日
别用Attention了,用GNN来解释NLP模型吧
图与推荐
1+阅读 · 2021年3月10日
【自然语言处理】清华刘知远55页自然语言处理PPT
产业智能官
19+阅读 · 2019年8月23日
清华大学图神经网络综述:模型与应用
机器之心
74+阅读 · 2018年12月26日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
Arxiv
28+阅读 · 2021年10月1日
小贴士
相关VIP内容
图神经网络综述
专知会员服务
197+阅读 · 2022年1月9日
专知会员服务
15+阅读 · 2021年10月4日
专知会员服务
90+阅读 · 2021年4月18日
专知会员服务
71+阅读 · 2021年3月27日
最新《图神经网络模型与应用》综述论文
专知会员服务
293+阅读 · 2020年8月2日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
相关资讯
赛尔原创@EMNLP 2021 | 基于稀疏子网络的领域迁移
哈工大SCIR
0+阅读 · 2022年4月1日
WWWJ | 基于多视图表示学习的专利分类
图与推荐
3+阅读 · 2021年9月15日
别用Attention了,用GNN来解释NLP模型吧
图与推荐
1+阅读 · 2021年3月10日
【自然语言处理】清华刘知远55页自然语言处理PPT
产业智能官
19+阅读 · 2019年8月23日
清华大学图神经网络综述:模型与应用
机器之心
74+阅读 · 2018年12月26日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员