WWW(The Web Conference)由万维网发明人、2016 年度图灵奖获得者 Tim Berners-Lee 于 1992 年发起并创办,是互联网系统与应用领域的顶级学术会议,也是中国计算机学会CCF推荐的A类学术会议,WWW-2024于2024年5月13-17日在新加坡召开。 WWW在互联网应用技术、标准制定、内容分析等研究领域享有盛名,在全球范围内为推动互联网技术的发展起到了重要作用。WWW-2024共接受投稿2008篇,录用率为20.2%,来自南加州大学等给出的《大模型时代虚假信息治理》教程。

虚假信息在社交媒体上影响公众舆论的广泛滥用在各个领域变得越来越明显,涵盖了政治领域,如总统选举,以及医疗保健领域,尤其是在最近的 COVID-19 大流行期间。随着大规模语言模型(LLMs)的发展,操纵者能够更高效地生成高度令人信服的虚假内容,这一威胁变得更加严重。此外,最近整合了 LLMs 的聊天机器人(如 ChatGPT)的进步,使得创建类人交互的社交机器人成为可能,这对人类用户和社交媒体平台的社交机器人检测系统构成了重大挑战。这些挑战促使研究人员开发算法来缓解虚假信息和社交媒体操纵。本教程介绍了对实现这一目标有帮助的先进机器学习研究,包括(1)社交操纵者的检测,(2)虚假信息和社交操纵的因果模型学习,以及(3)大规模语言模型生成的虚假信息检测。此外,我们还提出了未来可能的研究方向

近年来,社交媒体平台上虚假信息的泛滥,尤其是在总统选举和全球大流行等重大事件期间,已成为一个日益严重的问题。例如,在 COVID-19 大流行期间,广泛传播的误导信息淡化了疫情的严重性并夸大了 COVID-19 疫苗的副作用,对公共健康产生了不利影响,并侵蚀了公众对可信来源的信任【10, 24】。此外,虚假信息经常被用来操纵社会结果和公众舆论,严重削弱了社交媒体平台上内容的可信度【12, 34】。 研究人员一直致力于打击虚假信息及其在社交媒体上的操纵【2, 13, 18, 32, 33, 38】。所提出的技术在应对传统威胁(例如,预设内容的社交机器人由人工编辑伪造)时取得了一定程度的成功。然而,人工智能生成内容(AIGC)的迅速进步开启了潘多拉的盒子。结合大规模语言模型(LLMs)和上下文学习,虚假信息活动的操纵者带来了更严重的威胁:

更具互动性的社交机器人。通过设计合适的提示,操纵者可以使他们的社交机器人自主与其他账户互动。相比于仅仅遵循预定义脚本的传统社交机器人,这种互动性社交机器人更难被检测到【3, 11, 40】。

更具欺骗性的虚假信息内容。操纵者可以利用大规模语言模型(LLMs)的广泛能力来模仿各种语言风格,使其虚假信息对特定人群或公众更具说服力。此外,他们可以利用LLMs生成虚假参考资料和证据的倾向,进一步加剧欺骗【7】。

更高效的虚假信息生成。最近的研究表明,大规模模型可以高效生成虚假信息。例如,给定一段虚假信息文本,预训练的多模态模型可以轻松生成操控过的图像(如 DALL-E)或检索真实图像(如 CLIP)来构建脱离语境的媒体(即图像和文本都未修改但不一致,从而支持特定叙述)。这种内容对传统的虚假信息检测模型来说极具挑战性【25】。

本教程旨在介绍以下研究方向的历史和最新进展,这些方向有望在应对上述威胁方面发挥作用:

大模型时代的虚假信息检测。此方向聚焦于应用大模型检测虚假信息,包括传统的人为撰写的假新闻和由大规模语言模型生成的现代虚假信息,如操控文本和伪造或脱离语境的多模态媒体。

社交媒体上的操纵者检测:旨在通过识别活动模式和集体异常协同行为来检测社交媒体上的操纵者(如社交机器人和协调账户)。

理解虚假信息的因果效应:旨在评估虚假信息对个人或一组社交媒体用户的影响。最近的研究表明,这在识别和保护易受虚假信息影响的用户方面具有潜力。

成为VIP会员查看完整内容
57

相关内容

【WWW2024教程】时间网络挖掘,附486页slides
专知会员服务
35+阅读 · 2024年5月23日
【WWW2024教程】知识图谱推理进展与趋势,附190页ppt
专知会员服务
76+阅读 · 2024年5月18日
【AAAI2024教程】多目标学习 - 基础与应用,197页ppt
专知会员服务
55+阅读 · 2024年3月2日
【AAAI2024教程】大模型知识编辑,192页ppt
专知会员服务
76+阅读 · 2024年2月29日
【EMNLP2020】自然语言处理模型可解释性预测,182页ppt
专知会员服务
51+阅读 · 2020年11月19日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2024年6月20日
Arxiv
0+阅读 · 2024年6月16日
Arxiv
0+阅读 · 2024年6月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关资讯
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
相关基金
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员