项目名称: 关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究
项目编号: No.61170196
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 计算机科学学科
项目作者: 孙茂松
作者单位: 清华大学
项目金额: 60万元
中文摘要: 主题词是人们快速了解文本内容、把握其主题的重要方式之一。文本主题词标注已广泛应用于搜索引擎、新闻服务、电子图书馆等领域,具有重要的科学意义和广泛的应用价值。本项目将进行以下几方面的研究:构建面向典型应用的大规模Web主题词标注语料库;研究适合中文主题词标注的词语边界和粒度确定方法;研究关键词抽取和关键词分配相结合的主题词标注方法;研究在社会标签推荐中充分引入标签之间关系的方法;研究适合中文社会标签系统特点的动力学模型和演化模式分析模型;研究综合考虑主题词粒度、边界和演化等特性,能够与时间基本同步的中文主题词自动标注方法及系统,并在热点事件跟踪、用户兴趣发现等典型任务上验证其有效性。本项目预期成果将大大丰富和深化中文主题词自动标注的研究,在相关计算方法和技术上实现一次跃迁,对Web规模的信息组织与检索乃至网络时代的中文信息处理研究具有重要意义。
中文关键词: 关键词抽取;关键词分配;主题词自动标注;信息检索;中文信息处理
英文摘要:
英文关键词: Keyword extraction;keyword assignment;;keyword annotation;information retrieval;Chinese information processing