项目名称: 无指导汉语文本挖掘的统计模型和统计推断
项目编号: No.11401338
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 数理科学和化学
项目作者: 邓柯
作者单位: 清华大学
项目金额: 22万元
中文摘要: 近年来,大规模数字化汉语文本可以方便地收集到。对这些文本的自动处理和信息提取有迫切需求。长期以来,汉语文本挖掘的理论和方法研究主要在计算机科学领域展开,已取得诸多成果。但是,现有方法大都是有指导的方法,需要使用 “语料库” 作为训练数据。但在许多实际问题中,获取有代表性的“语料库”非常困难。另外,现有方法大都将分词、未登陆词识别和命名实体分类等关键问题分开处理。但这些问题实际上是相互缠绕,互为因果的。将它们整合在一起联合处理是解决问题的最佳途径。但现有文本分析技术大都无法实现这一点。本项目提出了一种基于统计模型和统计推断来分析汉语文本的新方法。该方法将汉语文本挖掘的几大关键问题纳入一个系统的统计模型下做整体处理,克服了已有方法的重大缺陷。新方法有很强的自主学习能力,可以在没有训练数据和语法规则指导的情况下,运用统计学原理自主发现文本的用词和语法规律,并利用这些规律完成文本分析任务。
中文关键词: 中文文本分析;无指导学习;新词发现;知识获取;统计模型
英文摘要: In recent years, large quantities of digitalized Chinese texts can be easily collected. There is great appeal in developing text mining tools to automatically extract information from these data. In past, most theoretical and methodological studies on Chi
英文关键词: Chinese text minng;Unsupervised learing;word discovery;knowledge acquisition;statistical model