项目名称: 面向大规模XML文档集的关键词检索系统关键技术研究
项目编号: No.61170091
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 邓志鸿
作者单位: 北京大学
项目金额: 57万元
中文摘要: 随着大量数据以XML文档的形式存储和发布,人们亟需从这些数据中获取有价值信息,而现有XML关键词检索方法和技术不适用于处理大规模XML文档集。针对这种现状,我们提出面向大规模XML文档集的实用性强、交互性好的关键词检索系统的关键技术的研究课题。本课题拟引入机器学习的方法,解决内容和结构在结果评分中的融合问题,建立有效的结果评分方法,提高XML关键词检索效果;研究支持非单调评分方法、增量以及近似查询的Top-k查询理论方法,设计支持多种查询语义模型的Top-k查询算法,快速响应用户;研究关键词查询自动转换成树结构查询的技术,建立基于树结构查询推荐的用户交互检索模型,提高用户准确表达信息需求的能力、改善用户体验。以上述研究成果为基础,研制原型系统,形成一系列符合面向大规模XML文档集关键词检索特点的关键技术。我们的研究工作将丰富和发展XML关键词检索的理论和方法,具有重要的理论意义和实用价值。
中文关键词: 大规模XML文档集;关键词检索;索引;Top-k查询;交互检索模型
英文摘要:
英文关键词: large scale XML document collection;keyword search;index;Top-k query;interactive search model