项目名称: 无指导汉语文本挖掘的统计模型和统计推断

项目编号: No.11401338

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 数理科学和化学

项目作者: 邓柯

作者单位: 清华大学

项目金额: 22万元

中文摘要: 近年来,大规模数字化汉语文本可以方便地收集到。对这些文本的自动处理和信息提取有迫切需求。长期以来,汉语文本挖掘的理论和方法研究主要在计算机科学领域展开,已取得诸多成果。但是,现有方法大都是有指导的方法,需要使用 “语料库” 作为训练数据。但在许多实际问题中,获取有代表性的“语料库”非常困难。另外,现有方法大都将分词、未登陆词识别和命名实体分类等关键问题分开处理。但这些问题实际上是相互缠绕,互为因果的。将它们整合在一起联合处理是解决问题的最佳途径。但现有文本分析技术大都无法实现这一点。本项目提出了一种基于统计模型和统计推断来分析汉语文本的新方法。该方法将汉语文本挖掘的几大关键问题纳入一个系统的统计模型下做整体处理,克服了已有方法的重大缺陷。新方法有很强的自主学习能力,可以在没有训练数据和语法规则指导的情况下,运用统计学原理自主发现文本的用词和语法规律,并利用这些规律完成文本分析任务。

中文关键词: 中文文本分析;无指导学习;新词发现;知识获取;统计模型

英文摘要: In recent years, large quantities of digitalized Chinese texts can be easily collected. There is great appeal in developing text mining tools to automatically extract information from these data. In past, most theoretical and methodological studies on Chi

英文关键词: Chinese text minng;Unsupervised learing;word discovery;knowledge acquisition;statistical model

成为VIP会员查看完整内容
0

相关内容

【经典书】时间序列分析与预测导论,671页pdf
专知会员服务
147+阅读 · 2022年4月1日
专知会员服务
117+阅读 · 2021年10月6日
专知会员服务
48+阅读 · 2021年8月4日
专知会员服务
79+阅读 · 2021年7月3日
最新《因果推断导论》课程,102页ppt
专知会员服务
180+阅读 · 2020年9月1日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
交叉描述:图像和文本的语义相似度
TensorFlow
2+阅读 · 2021年6月22日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
小贴士
相关VIP内容
【经典书】时间序列分析与预测导论,671页pdf
专知会员服务
147+阅读 · 2022年4月1日
专知会员服务
117+阅读 · 2021年10月6日
专知会员服务
48+阅读 · 2021年8月4日
专知会员服务
79+阅读 · 2021年7月3日
最新《因果推断导论》课程,102页ppt
专知会员服务
180+阅读 · 2020年9月1日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
相关资讯
交叉描述:图像和文本的语义相似度
TensorFlow
2+阅读 · 2021年6月22日
电子病历文本挖掘研究综述
专知
3+阅读 · 2021年3月27日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
相关基金
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员