项目名称: 应用于面向问题的自动文摘任务的篇章分析关键技术研究

项目编号: No.60875042

项目类型: 面上项目

立项/批准年度: 2009

项目学科: 建筑科学

项目作者: 李素建

作者单位: 北京大学

项目金额: 28万元

中文摘要: 面向问题的自动文摘任务主要采用基于简单特征的句子抽取方法,存在摘要句信息冗余大、主题不连贯、不能很好地回答问题等缺陷。为了改善摘要性能,本申请提出引入篇章分析的理论和技术,从三个方面展开研究:第一,从语言学角度出发,并综合考虑篇章分析的可计算性,融合了修辞结构理论(RST)和语篇向心理论(CT),综合语句的修辞关系和话题转移关系定义了篇章标注体系,并提出了基于条件随机场的自动篇章标注方法;第二,为了使主题连贯均衡地分布在摘要中,提出了利用篇章关系构建主题模型,在语句层和词汇层建立了双层主题结构,在词汇层为主题构造层级概率生成模型,并通过语句的篇章关系调整主题的划分;第三,由于问题回答(QA)融入了自动文摘任务中,课题针对复杂观点型问题提出了判别和分析方法,以及文本语句观点倾向性分析的方法。本申请的研究成果,不仅为改进自动文摘系统提供了一种新的思路,而且为篇章分析等工作提供了基础资源和技术。

中文关键词: 面向问题的自动文摘技术;篇章分析;主题分析;观点倾向性分析

英文摘要: Most question-focused automatic summarization systems adopt extractive methods based on some simple features. Then, there exist some problems such as information redundancy,incoherence between topics, incapability to answer questions well and so on. In order to overcome these inadequacies, we propose to introduce the theories and techniques of text analysis into the summarization systems. Firstly, from the view of linguistics, with consideration of the calculability of text analysis, Rhetoric structure theory (RST) and centering theory (CT) are presented to define the discourse architecture, and to label the rhetoric relations and topic transition relations between sentences. Secondly, in order to make the topics distribute in the summary coherently and well-proportionedly, discourse relations are used to construct a two-level (including sentence level and lexical level) topic model. A hierarchical generation model of topics is constructed in the sentence level, and then the segmentation of topics is adjusted through discourse relations. Lastly, due that questions are fused into the summarization task, complex opinion questions are judged and analyzed, as well as the opinion of the sentences in the text. This research will not only contribute to improving the summarization systems,but provide the foundamental resources and techniques for the research of text anlysis.

英文关键词: Question-Focused Automatic Summarization;Text Analysis;Topic Analysis;Opnion Analysis

成为VIP会员查看完整内容
0

相关内容

自然语言处理中的文本表示研究
专知会员服务
56+阅读 · 2022年1月10日
专知会员服务
28+阅读 · 2021年6月25日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
69+阅读 · 2021年5月21日
知识增强的文本生成研究进展
专知会员服务
97+阅读 · 2021年3月6日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
43+阅读 · 2021年1月18日
专知会员服务
55+阅读 · 2020年12月20日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
下一代对话系统中的关键技术(下篇)
PaperWeekly
2+阅读 · 2022年4月1日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
小贴士
相关VIP内容
自然语言处理中的文本表示研究
专知会员服务
56+阅读 · 2022年1月10日
专知会员服务
28+阅读 · 2021年6月25日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
69+阅读 · 2021年5月21日
知识增强的文本生成研究进展
专知会员服务
97+阅读 · 2021年3月6日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
43+阅读 · 2021年1月18日
专知会员服务
55+阅读 · 2020年12月20日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
相关资讯
下一代对话系统中的关键技术(下篇)
PaperWeekly
2+阅读 · 2022年4月1日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员