项目名称: 基于网络用户行为分析的垃圾网页识别方法研究
项目编号: No.60903107
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 矿业工程
项目作者: 刘奕群
作者单位: 清华大学
项目金额: 19万元
中文摘要: 互联网信息量的迅速增加,使得搜索引擎成为人们日常工作和生活中不可或缺的信息获取手段,网络垃圾页面利用各种不正当的手段获取较高的检索结果排名,对搜索引擎的运行和用户的使用产生了极大的不良影响。面对垃圾页面作弊技术的发展,传统的针对垃圾页面作弊形式而设计的垃圾识别算法面临着只能处理单一作弊形式,难以及时应对新出现垃圾类型的问题。用户行为分析方法一直是搜索引擎改进算法与系统结构设计的主要依据,垃圾网页的作弊目的必定会对用户的访问行为产生影响,而造成用户对垃圾网页和正常网页访问行为模式的差异,这种差异则可以成为识别垃圾网页的重要依据。本项目的主要目的,就是基于用户行为分析的方法,对垃圾页面的作弊目的及用户访问行为模式进行分析和挖掘,考察并提出相应的垃圾页面识别特征和定位算法;并尝试将识别算法应用于真实网络环境,以提高搜索引擎应对垃圾页面作弊的能力。
中文关键词: 搜索引擎;垃圾网页;机器学习;用户行为;
英文摘要:
英文关键词: search engine;Web spam page;machine learning;user behavior;