文本语义模型和子空间聚类研究 - 专知基金

会员服务 ·

0

语义表示 · 高维数据分析 ·

2009 年 12 月 31 日

文本语义模型和子空间聚类研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 文本语义模型和子空间聚类研究

项目编号： No.60905028

项目类型： 青年科学基金项目

立项/批准年度： 2010

项目学科： 矿业工程

项目作者： 景丽萍

作者单位： 北京交通大学

项目金额： 19万元

中文摘要： 信息化飞速发展的今天，文本数据海量涌现。如何从这些海量的文本数据中快速、自动地挖掘出对人们有用的知识是当今人们面临的重要任务之一，文本挖掘技术也就成了当今的热点研究方向。本项目将针对文本挖掘核心技术- - 文本表示模型构建和聚类方法设计进行创新性的研究，主要体现在以下几个方面：针对文本数据特性（海量、高维、稀疏、复杂语义），创建同时涵盖语法和语义信息的文本表示模型；设计适合高维稀疏海量数据的快速有效聚类方法；为聚类结果设计出基于知识库的主题概念抽取方法和结果评估方法；进而开发整合文本预处理、文本模型构建、聚类功能和结果评估展现的文本聚类系统原型，该系统可以作为独立的系统运行，同时也可以作为现有数据挖掘系统的子系统模块。

中文关键词： 文本挖掘；语义表示；子空间聚类；高维数据分析；领域知识库

英文摘要：

英文关键词： Text mining；Semantic representation；Subspace clustering；High-dimension data analysis;；Domain knowledge

成为VIP会员查看完整内容

1

相关内容

语义表示

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

自动文本摘要研究综述

自动文本摘要研究综述

专知会员服务

68+阅读 · 2021年1月31日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

85+阅读 · 2020年4月23日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

专知会员服务

17+阅读 · 2019年10月18日

交叉描述：图像和文本的语义相似度

交叉描述：图像和文本的语义相似度

TensorFlow

2+阅读 · 2021年6月22日

电子病历文本挖掘研究综述

电子病历文本挖掘研究综述

专知

3+阅读 · 2021年3月27日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

高维多媒体特征的低维流形子空间降维及聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于互联网海量信息的数据库文本类型数据清洗研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向大规模动态短文本的快速聚类及演化分析技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图论模型的文本重叠聚类研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于信息融合的生物医学文本高性能聚类研究

国家自然科学基金

0+阅读 · 2009年12月31日

Web图像的语义表示及在聚类与排序中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

Efficient comparison of sentence embeddings

Arxiv

0+阅读 · 2022年4月18日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

Cannikin's Law in Tensor Modeling: A Rank Study for Entanglement and Separability in Tensor Complexity and Model Capacity

Arxiv

0+阅读 · 2022年4月16日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

Knowledge Representation Learning: A Quantitative Review

Knowledge Representation Learning: A Quantitative Review

Arxiv

28+阅读 · 2018年12月28日

Label-aware Double Transfer Learning for Cross-Specialty Medical Named Entity Recognition

Arxiv

10+阅读 · 2018年4月28日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

高维数据分析

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关VIP内容

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

自动文本摘要研究综述

自动文本摘要研究综述

专知会员服务

68+阅读 · 2021年1月31日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【国防科大】复杂异构数据的表征学习综述

【国防科大】复杂异构数据的表征学习综述

专知会员服务

85+阅读 · 2020年4月23日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

专知会员服务

17+阅读 · 2019年10月18日

相关资讯

交叉描述：图像和文本的语义相似度

交叉描述：图像和文本的语义相似度

TensorFlow

2+阅读 · 2021年6月22日

电子病历文本挖掘研究综述

电子病历文本挖掘研究综述

专知

3+阅读 · 2021年3月27日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

相关基金

高维多媒体特征的低维流形子空间降维及聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于互联网海量信息的数据库文本类型数据清洗研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向大规模动态短文本的快速聚类及演化分析技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图论模型的文本重叠聚类研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于hLDA层次主题模型的中文多文档摘要研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于信息融合的生物医学文本高性能聚类研究

国家自然科学基金

0+阅读 · 2009年12月31日

Web图像的语义表示及在聚类与排序中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Efficient comparison of sentence embeddings

Arxiv

0+阅读 · 2022年4月18日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

Cannikin's Law in Tensor Modeling: A Rank Study for Entanglement and Separability in Tensor Complexity and Model Capacity

Arxiv

0+阅读 · 2022年4月16日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

Knowledge Representation Learning: A Quantitative Review

Knowledge Representation Learning: A Quantitative Review

Arxiv

28+阅读 · 2018年12月28日

Label-aware Double Transfer Learning for Cross-Specialty Medical Named Entity Recognition

Arxiv

10+阅读 · 2018年4月28日

微信扫码咨询专知VIP会员