项目名称: Web搜索引擎的多层次缓存数据布局方法及实时检索缓存失效内容更新策略研究
项目编号: No.61402123
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 自动化技术、计算机技术
项目作者: 马宏远
作者单位: 国家计算机网络与信息安全管理中心
项目金额: 26万元
中文摘要: 缓存是有效提升大规模Web搜索引擎性能的重要组件,搜索引擎多层次缓存与面向实时检索的缓存查询结果实时性问题是当前领域面临的重要挑战。 本项目研究在多层次缓存场景下的搜索引擎缓存数据布局方法,突破现有研究仅适用单一层次缓存技术局限,通过分析查询结果、倒排表、倒排表交集因素间的影响关系,将该难题转化为多背包问题进行求解;研究工作负载感知的缓存失效内容更新策略,填补面向实时检索缓存失效内容更新策略研究的空白,对搜索引擎工作负载进行自相似性特征分析,提出搜索引擎工作负载感知的缓存失效内容更新策略,包括基于查询频率、查询时间开销、缓存内容生命周期的更新策略。 最后,实现一套面向实时检索的高性能搜索引擎多层次缓存系统,采用大规模真实商业搜索引擎查询日志作为工作负载,在该系统上开展实验,验证研究成果的有效性。
中文关键词: 查询结果缓存;搜索引擎;效率优化;信息检索;实时检索
英文摘要: Cache is a vital component for efficiency of large-scale Web search engines, and hierarchical cache and maintaining the freshness of cached query results for real-time search are the current research challenges. In the program, we will study data layo
英文关键词: Query results cache;Search engine;Efficiency optimization;Information retrieval;Real-time search