项目名称: 海量社会媒体数据中不实信息的分析与检测

项目编号: No.61272343

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 张铭

作者单位: 北京大学

项目金额: 84万元

中文摘要: 微博等社会媒体的蓬勃发展,帮助人们更快捷地获取信息。但是,由于任何人都可能成为信息发布者,使得许多不实信息混杂其中,而且传播更加迅速、蛊惑性强且不易甄别。因此,迫切需要一套自动、高效、准确地衡量信息真实度的模型与算法,以检测不实信息。 本课题拟采用基于多元采样、事件聚类和半监督标注的分层提炼方法构建面向海量社会媒体的大规模、高质量不实信息数据集;基于上述数据集,从内容、用户和传播等三个方面,以主题模型、机器学习技术、回归分析方法和社会学传播理论为工具全面理解不实信息,获取分析不实信息的基本特征。基于上述特征分析,建立综合"内容-用户-传播"特征的支持向量机回归SVR模型以判断博文信息真实度,建立图模型来共同检测用户和信息真实度度量,最终形成科学的不实信息自动检测方法。在上述理论方法和技术的研究基础之上,本课题还将开发不实信息的在线预警与检测系统,服务于社会媒体的和谐稳定与健康发展

中文关键词: 社会媒体;主题模型;用户分析;争议性分析;谣言检测

英文摘要: Recently, social media sites have achieved an impressive growth rate, and become important tools for people to leverage the wisdom of the crowds. However, since anyone can be the information source, the rapid growth also makes misinformation more indiscriminate and spread among a larger amount of people more quickly. Therefore, it is crucial to design algorithms that detect misinformation automatically and efficiently. The project aims at analyzing and detecting misinformation from large scale data in social media. First, we construct a large-scale misinformation dataset from cross-media data with the following steps: reasonable sampling strategies, temporal event clustering and semi-supervised annotation. Secondly, we conduct a symmetrical analysis towards misinformation from the perspective of content, user and diffusion, with methods such as topic model, machine learning, regression, hypothesis tests and diffusion theory. Finally, we propose two models to detect misinformation automatically: one SVR (Support Vector Regression) model based on the analyzed "content - user - diffusion" features; and one graphical model incorporating the user-information network with the above features. Further, to demonstrate the practicality and feasibility of our study, we design an alert and retrieval system to benefit long-

英文关键词: Social Median;Topic Model;User Analysis;Controversial Analysis;Rumor Detection

成为VIP会员查看完整内容
1

相关内容

主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。   在这里,我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
流行病数据可视分析综述
专知会员服务
25+阅读 · 2022年3月21日
个性化学习推荐研究综述
专知会员服务
55+阅读 · 2022年2月2日
专知会员服务
27+阅读 · 2021年8月15日
专知会员服务
25+阅读 · 2021年8月7日
虚假评论识别研究综述
专知会员服务
21+阅读 · 2021年3月2日
【WWW2021】挖掘双重情感的假新闻检测
专知会员服务
36+阅读 · 2021年1月18日
专知会员服务
36+阅读 · 2020年12月14日
加强网络信息安全立法 维护国家网络空间安全
CCF计算机安全专委会
1+阅读 · 2022年2月25日
Google搜索正在“死亡”
CSDN
0+阅读 · 2022年2月22日
互联网信息服务算法推荐管理规定
机器学习与推荐算法
1+阅读 · 2022年1月5日
手机的负一屏有用吗?
ZEALER订阅号
0+阅读 · 2021年11月14日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
网络舆情分析
计算机与网络安全
18+阅读 · 2018年10月18日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月15日
2D Human Pose Estimation: A Survey
Arxiv
0+阅读 · 2022年4月15日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
小贴士
相关VIP内容
流行病数据可视分析综述
专知会员服务
25+阅读 · 2022年3月21日
个性化学习推荐研究综述
专知会员服务
55+阅读 · 2022年2月2日
专知会员服务
27+阅读 · 2021年8月15日
专知会员服务
25+阅读 · 2021年8月7日
虚假评论识别研究综述
专知会员服务
21+阅读 · 2021年3月2日
【WWW2021】挖掘双重情感的假新闻检测
专知会员服务
36+阅读 · 2021年1月18日
专知会员服务
36+阅读 · 2020年12月14日
相关资讯
加强网络信息安全立法 维护国家网络空间安全
CCF计算机安全专委会
1+阅读 · 2022年2月25日
Google搜索正在“死亡”
CSDN
0+阅读 · 2022年2月22日
互联网信息服务算法推荐管理规定
机器学习与推荐算法
1+阅读 · 2022年1月5日
手机的负一屏有用吗?
ZEALER订阅号
0+阅读 · 2021年11月14日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
网络舆情分析
计算机与网络安全
18+阅读 · 2018年10月18日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员