项目名称: 基于多源模板重构的社交网络垃圾信息在线检测方法研究

项目编号: No.61472359

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 何钦铭

作者单位: 浙江大学

项目金额: 80万元

中文摘要: 社交网络中的垃圾信息问题日益严重,为逃避检测,垃圾信息发送者越来越多地使用复杂多变的模板生成垃圾信息,其无固定公共子串、包含噪音、多源混合以及部分借助正常用户发送的特点,使得现有方法无法有效在线检测。本项目以社交网络中无固定公共子串模板生成的垃圾信息为研究对象,旨在探索针对模板生成的垃圾信息实施在线检测的方法,从仅含部分样本且多源混合的实时信息流中自动区分并提取垃圾信息所用的不同模板进行重构,从而准确反映垃圾信息的本质特征,实现垃圾信息在线检测,包括0-day垃圾信息。拟研究多数融合及矩阵变换的模板重构、基于稀有类挖掘的在线增量聚类、应用序列标注的噪音识别及基于社区挖掘的垃圾信息账号同源分析等启发式算法和方法,解决多源数据在线区分、模板重构及噪音与错误数据消减等关键科学问题,保证方法的实时、准确及自适应。研究成果将直接指导构建社交网络垃圾信息的在线检测系统,保障用户安全和社交网络正常运行。

中文关键词: 在线社交网络;垃圾信息;模板重构;增量聚类;社区检测

英文摘要: Spam campaign activities in online social networks are increasing. Most spam campaigns use complicated template to generate spam content in order to avoid detection, which are absence of invariant substring, prevalence of noise and heterogeneity. Many of them are sent via normal accounts. All these challenges to existing spam detection work. This proposal focuses on the spam generated by template without invariant substrings and online detection approach. By automated multiple spam template reconstruction from online messages flow which contain part of whole spam set, spam can be detected online with efficiency and accuracy. We proposed a template reconstruction algorithm by majority merge and matrix transformation, online incremental clustering based on rare category mining, noise identification by sequence labeling and spam account source analysis based on community detection. Those researches should solve the key problems in online social network spam detection, including non-invariant substrings template reconstruction, online clustering of messages generated by multiple template, noise identification and error toleration, provide an online, accurate and adaptive detection. The research will support building online and effective spam detection and filter system in online social networks, which threat the security of users in them.

英文关键词: Online Social Network;SPAM;Template Reconstruction;Incremental Clustering;Community Detection

成为VIP会员查看完整内容
0

相关内容

视觉深度伪造检测技术综述
专知会员服务
34+阅读 · 2022年1月28日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
27+阅读 · 2021年8月15日
专知会员服务
25+阅读 · 2021年8月7日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
专知会员服务
45+阅读 · 2020年11月13日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
基于旅游知识图谱的可解释景点推荐
专知会员服务
90+阅读 · 2020年9月4日
【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测
专知会员服务
16+阅读 · 2020年8月16日
流畅的Python 中英文版 PDF 高清电子书
专知会员服务
80+阅读 · 2020年8月2日
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
基于Pytorch的开源推荐算法库
机器学习与推荐算法
1+阅读 · 2021年10月12日
已删除
德先生
53+阅读 · 2019年4月28日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
19+阅读 · 2021年2月4日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Arxiv
38+阅读 · 2020年12月2日
Arxiv
10+阅读 · 2018年2月17日
小贴士
相关VIP内容
视觉深度伪造检测技术综述
专知会员服务
34+阅读 · 2022年1月28日
【实用书】Python数据分析手册,437页pdf带你实战数据清洗
专知会员服务
27+阅读 · 2021年8月15日
专知会员服务
25+阅读 · 2021年8月7日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
专知会员服务
45+阅读 · 2020年11月13日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
基于旅游知识图谱的可解释景点推荐
专知会员服务
90+阅读 · 2020年9月4日
【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测
专知会员服务
16+阅读 · 2020年8月16日
流畅的Python 中英文版 PDF 高清电子书
专知会员服务
80+阅读 · 2020年8月2日
相关资讯
基于机器学习的自动化网络流量分析
CCF计算机安全专委会
4+阅读 · 2022年4月8日
基于Pytorch的开源推荐算法库
机器学习与推荐算法
1+阅读 · 2021年10月12日
已删除
德先生
53+阅读 · 2019年4月28日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员