项目名称: 垃圾邮件过滤的优化目标、建模及顺序回归研究
项目编号: No.60903083
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 金属学与金属工艺
项目作者: 孙广路
作者单位: 哈尔滨理工大学
项目金额: 18万元
中文摘要: 垃圾邮件过滤是网络信息处理中的重要问题,基于机器学习方法的垃圾邮件过滤技术是目前的研究热点。现有研究一般将过滤问题视为二值分类问题进行解决,存在着模型优化目标和性能评价指标不一致的问题,导致模型优化结果产生偏差,过滤性能受到很大影响。本课题拟通过直接优化评价指标来提升过滤器性能,将垃圾邮件过滤问题转化成排序问题进行建模,探索基于顺序回归学习的垃圾邮件过滤新模型;拟提出在线顺序逻辑回归学习算法,解决顺序回归学习中的邮件得分偏移问题;综合应用TONE算法和重采样技术,拟提出参数权重更新算法,解决顺序回归学习中在线调整模型参数时的处理速度问题,满足垃圾邮件实时过滤的要求;拟提出基于字节级n元文法的特征提取方法,解决垃圾邮件信息伪装和隐藏的问题。本课题力争在垃圾邮件过滤的理论和方法上有所创新和突破,旨在大幅提高垃圾邮件过滤的性能,推动信息过滤技术的发展。本课题的研究具有重要的学术意义和实践意义。
中文关键词: 垃圾邮件过滤;评价指标优化;排序模型;在线顺序回归学习;主动学习
英文摘要:
英文关键词: Spam Filterinig;Indicator Optimization;Ranking Model;OnlineOrdinal Regression Model;Active Learning