项目名称: 基于hLDA层次主题模型的中文多文档摘要研究

项目编号: No.61202247

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 李蕾

作者单位: 北京邮电大学

项目金额: 22万元

中文摘要: 多文档摘要是一种文本浓缩技术,旨在为多篇文档生成一篇能概括主要内容的摘要,对海量信息服务具有很好的应用价值。本项目的特色是采用hLDA为中文多文档数据集建模,与中文语言特点相结合进行结果分析与模型优化,探索性能更好适用性更强的中文多文档摘要新方法。hLDA是一种无监督贝叶斯非参方法,不仅能在大规模离散无结构数据中挖掘潜在主题,组织成更符合人类认知的层次语义结构,而且能自动适应开放数据集的增长。相对已有的英文hLDA摘要,本项目的创新点主要有:专门针对中文多文档语料集展开研究,将实现一种简单易行的无监督方法,不需要借助理想摘要的指导,对hLDA建模结果在中文语言应用上的优缺点进行深入分析,包括结合中文词法、句法分析及相似度计算等对主题路径的聚集与分离、词语层次分布等详细信息与人类认知的语义结构进行比较,并进行模型优化,充分利用潜在主题路径及主题间抽象层次关系,融合语言特征来实现文摘句抽取。

中文关键词: 多文档摘要;中文多文档摘要;hLDA;层次主题建模;语义特征

英文摘要: Multi-document summarization is an important technology for text compression. It aims to generate a brief and coherent summary, which should be objective and exactly reflect the contents of the original documents and minimize redundancy. It will surely be

英文关键词: Multi-document summarization;Chinese Multi-document summarization;hLDA;hierarchical topic modeling;semantic features

成为VIP会员查看完整内容
1

相关内容

专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
71+阅读 · 2021年3月27日
专知会员服务
60+阅读 · 2021年3月25日
专知会员服务
36+阅读 · 2020年12月14日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
专知会员服务
108+阅读 · 2020年5月21日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
基于句子嵌入的无监督文本摘要(附代码实现)
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
基于LDA的主题模型实践(三)
机器学习深度学习实战原创交流
23+阅读 · 2015年10月12日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
15+阅读 · 2019年6月25日
小贴士
相关VIP内容
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
71+阅读 · 2021年5月21日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
71+阅读 · 2021年3月27日
专知会员服务
60+阅读 · 2021年3月25日
专知会员服务
36+阅读 · 2020年12月14日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
专知会员服务
108+阅读 · 2020年5月21日
相关资讯
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
基于句子嵌入的无监督文本摘要(附代码实现)
基于机器阅读理解(MRC)的信息抽取方法
DataFunTalk
13+阅读 · 2019年11月1日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
基于LDA的主题模型实践(三)
机器学习深度学习实战原创交流
23+阅读 · 2015年10月12日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员