项目名称: 共现潜在语义向量空间模型及其语义核的构建与应用研究

项目编号: No.71503151

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 管理科学

项目作者: 牛奉高

作者单位: 山西大学

项目金额: 17万元

中文摘要: 文本数据是当前大数据的时代的主要形式,对文本数据的挖掘成为信息获取和知识发现的重要途径。向量空间模型(VSM)为信息检索提供了非常好的解决方法,随着研究的深入,又出现了语义向量空间模型(SVSM)及类似模型,使检索效果和文本挖掘的效果更好。但依然存在不足:或者是向量表示中语义表现不够,或者是语义提取成本过高,或者是计算复杂度高。鉴于此,本人初步提出了共现潜在语义向量空间模型(CLSVSM),在文献聚类应用中,不仅降低了语义提取成本,还得到了较好的效果。但计算复杂度还是很高,而且不利于推广。语义核方法可以规范计算过程,降低复杂度,并可以推广应用,比如文本信息检索、分类、文献聚合、机器学习等领域。本项目拟在优化CLAVSM的基础上,采用语义核的思想,构建CLSVSM的语义核并应用于文献主题聚类中以检验其效果。

中文关键词: 文本挖掘;语义关联;知识发现;信息检索;文献聚合

英文摘要: The text data is currently the main form of the era of big data, and text data mining has become an important way of information access and knowledge discovery. Vector Space Model (VSM) provides a very good solution for information retrieval. with further research, there was a semantic vector space model (SVSM) and similar models, making retrieval and text mining results better. But still not enough: either a vector representation of semantic performance is not enough, or too costly to extract semantic, or high computational complexity. In view of this, I initially proposed co-occurrence latent semantic vector space model (CLSVSM). In the literature clustering, the model not only reduces the cost of semantic extraction, also got good results. However, the computational complexity is very high, and the model is not conductive to be used widly. Semantic kernel method can standardize the calculation process, reduce complexity, and can be extended applications, such as text information retrieval, classification, aggregation literature, machine learning and other fields. The project is planned on the basis of optimized CLAVSM, adopting semantic core idea, to build CLSVSM semantics kernal and applied to literature topic clustering to test its effectiveness.

英文关键词: Text mining;semantic association;knowledge discovery;Information retrieval;Literature aggregation

成为VIP会员查看完整内容
1

相关内容

面向知识图谱的图嵌入学习研究进展
专知会员服务
61+阅读 · 2021年11月3日
专知会员服务
36+阅读 · 2021年6月16日
专知会员服务
61+阅读 · 2021年2月22日
专知会员服务
58+阅读 · 2020年12月6日
专知会员服务
30+阅读 · 2020年9月13日
专知会员服务
21+阅读 · 2020年9月11日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
78+阅读 · 2020年5月24日
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
2+阅读 · 2021年8月24日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
基于 word2vec 和 CNN 的文本分类 :综述 & 实践
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
23+阅读 · 2017年3月9日
小贴士
相关VIP内容
面向知识图谱的图嵌入学习研究进展
专知会员服务
61+阅读 · 2021年11月3日
专知会员服务
36+阅读 · 2021年6月16日
专知会员服务
61+阅读 · 2021年2月22日
专知会员服务
58+阅读 · 2020年12月6日
专知会员服务
30+阅读 · 2020年9月13日
专知会员服务
21+阅读 · 2020年9月11日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
78+阅读 · 2020年5月24日
相关资讯
论文浅尝 | 面向开放域的无监督实体对齐
开放知识图谱
2+阅读 · 2021年8月24日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
基于 word2vec 和 CNN 的文本分类 :综述 & 实践
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
37+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员