项目名称: 基于特征建模优化与判别学习的Web spam识别技术研究
项目编号: No.61170145
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 张化祥
作者单位: 山东师范大学
项目金额: 57万元
中文摘要: Web spam已成为Web信息检索面临的重要问题,开展该研究有利于spam识别,其理论成果也可用于识别敏感页面。目前研究大多通过定义启发式函数实现spam页面识别,精度不高、泛化能力差。课题拟从spam页面特征建模及优化,不平衡数据的过取样处理及基于问题相关的判别学习算法几方面对该问题进行系统研究,提出spam特征识别模型及优化策略,构建引入spam页面局部及全局一致性特点的识别函数,同时研究使用迁移学习技术,充分利用相关问题辅助训练样例,建立Web spam识别的系统化理论模型及算法,提高spam识别效果及算法泛化能力。
中文关键词: spam建模;判别学习;迁移学习;谱聚类;过采样
英文摘要:
英文关键词: spam modelling;discriminative learning;transfer learning;spectral clustering;over sampling