项目名称: 基于汉语文本数据的统计分析
项目编号: No.11126080
项目类型: 专项基金项目
立项/批准年度: 2012
项目学科: 金属学与金属工艺
项目作者: 郝立丽
作者单位: 东北林业大学
项目金额: 3万元
中文摘要: 随着信息时代的到来,政府、商业和企业等机构每天都在产生并积累大量的文本数据,且产生速度呈指数增长。将海量数据进行分类汇集,分析整理,找出规律性的问题,获得有利于政府决策、商业及企业提高竞争力的信息为本课题研究目标。本课题以文本型信息源作为研究对象,主要以市长公开电话这一典型的汉语文本数据为研究样本,针对此类数据具有数据量大、数据维度高及在线实时性需求等显著特征,我们通过运用统计学理论,拟设计符合海量数据及实时数据的分类算法实现自动分类;利用Pearson卡方检验及变量聚类分析方法实现对市民集中关注的热点问题的提取,并进行深入的数据挖掘,通过投诉数据来获得市民的整体需求,并通过构建贝叶斯网和因果关系推断来探询引起这些需求的根源;最后通过建立预测模型,以实现市长公开电话的预警预报功能。最终实现为老百姓提供智能集成服务、为领导决策提供重要参考,并能为处理海量数据提供重要的理论支撑和借鉴价值。
中文关键词: 市长公开电话;Pearson 卡方检验;函数型数据分析;;
英文摘要:
英文关键词: The Mayor's Public Hotline;Pearson chi-square test;Functional Data Analysis;;