项目名称: 基于集成学习的网页链接作弊检测

项目编号: No.61300190

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 刘馨月

作者单位: 大连理工大学

项目金额: 22万元

中文摘要: 网页作弊给搜索引擎和用户带来巨大损失,尤以链接作弊危害严重。半自动链接作弊检测算法传播人工判别的作弊信息,但忽略了作弊网页的很多特征;自动算法使用作弊网页的部分特征,通过机器学习、图正规化等进行检测,但忽略了其它特征和人工判别能力。总之,现有算法使用信息不够全面,检测能力较弱,性能已遭遇瓶颈。针对现有算法的困难,本项目在我们前期大量研究基础上,使用集成学习理论解决链接作弊检测问题。首先提出自动作弊检测算法集成方案,充分利用作弊网页各种特征,集成各种算法的检测能力;其次提出信任和不信任同步传播策略,充分利用好种子和坏种子的信息,集成信任传播和不信任传播的检测能力;最后提出自动算法和半自动算法集成方案,将作弊网页的统计特征和人工判别能力充分结合,全方位挖掘各类信息用于作弊检测。本项研究将形成基于集成学习的链接作弊检测较完善的理论体系,克服片面信息和单一算法的困难,使作弊检测精度获得实质性提高。

中文关键词: 作弊检测;信任传播;不信任传播;多视角;集成学习

英文摘要: Web page spam causes huge losses to both search engine providers and users, and link spam is the most harmful. Semi-automatic link spam detection algorithms propagate human-identified spam information, but neglect many features of spam pages; Automatic algorithms use partial features and detect spam with machine learning or graph regulation techniques, but neglect other features and human judgement. In brief, existing algorithms can not make use of overall information, show weak detection abilities and meet with performance bottleneck. Based on our large amount of previous reseach, in this project, we use ensemble learning theory to solve the link spam detection problem. Firstly, we propose ensemble schemes of automatic spam detection algorithms, which make full use of spam page features and integrate the detection abilities of all kinds of automatic algorithms; Secondly, we propose synchronous propagation schemes of trust and distrust, which make full use of information provided by both good and bad seeds, and integrate the abilities of both trust propagation and distrust propagation; Finally, we propose combination schemes of automatic and semi-automatic algorithms, which integrate statical features of spam pages and human judgements,thus fuse all kinds of information for spam detection. With efforts made dur

英文关键词: spam detection;trust propagation;distrust propagation;multiple views;ensemble learning

成为VIP会员查看完整内容
0

相关内容

【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
19+阅读 · 2022年4月19日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
33+阅读 · 2022年1月4日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
20+阅读 · 2021年11月29日
专知会员服务
38+阅读 · 2021年9月28日
专知会员服务
16+阅读 · 2021年9月7日
专知会员服务
86+阅读 · 2021年9月4日
专知会员服务
21+阅读 · 2021年7月31日
【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测
专知会员服务
16+阅读 · 2020年8月16日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
金融反欺诈的底层逻辑
人人都是产品经理
1+阅读 · 2022年3月23日
深度解读:小米AI实验室AutoML团队最新成果FairNAS
PaperWeekly
32+阅读 · 2019年7月11日
已删除
将门创投
12+阅读 · 2018年6月25日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
【知识图谱】肖仰华 | 基于知识图谱的用户理解
产业智能官
16+阅读 · 2017年10月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
小贴士
相关VIP内容
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
19+阅读 · 2022年4月19日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
33+阅读 · 2022年1月4日
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
20+阅读 · 2021年11月29日
专知会员服务
38+阅读 · 2021年9月28日
专知会员服务
16+阅读 · 2021年9月7日
专知会员服务
86+阅读 · 2021年9月4日
专知会员服务
21+阅读 · 2021年7月31日
【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测
专知会员服务
16+阅读 · 2020年8月16日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
金融反欺诈的底层逻辑
人人都是产品经理
1+阅读 · 2022年3月23日
深度解读:小米AI实验室AutoML团队最新成果FairNAS
PaperWeekly
32+阅读 · 2019年7月11日
已删除
将门创投
12+阅读 · 2018年6月25日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
【知识图谱】肖仰华 | 基于知识图谱的用户理解
产业智能官
16+阅读 · 2017年10月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员