We present an end-to-end demonstration of how attackers can exploit AI safety failures to harm vulnerable populations: from jailbreaking LLMs to generate phishing content, to deploying those messages against real targets, to successfully compromising elderly victims. We systematically evaluated safety guardrails across six frontier LLMs spanning four attack categories, revealing critical failures where several models exhibited near-complete susceptibility to certain attack vectors. In a human validation study with 108 senior volunteers, AI-generated phishing emails successfully compromised 11\% of participants. Our work uniquely demonstrates the complete attack pipeline targeting elderly populations, highlighting that current AI safety measures fail to protect those most vulnerable to fraud. Beyond generating phishing content, LLMs enable attackers to overcome language barriers and conduct multi-turn trust-building conversations at scale, fundamentally transforming fraud economics. While some providers report voluntary counter-abuse efforts, we argue these remain insufficient.


翻译:我们展示了攻击者如何利用AI安全漏洞危害弱势群体的端到端实证:从越狱大型语言模型生成钓鱼内容,到将这些信息部署于真实目标,直至成功侵害老年受害者。我们系统评估了涵盖四类攻击场景的六种前沿大型语言模型的安全防护机制,揭示了关键缺陷——多个模型对特定攻击向量表现出近乎完全的易感性。在一项涉及108名老年志愿者的人类验证研究中,AI生成的钓鱼邮件成功侵害了11%的参与者。本研究独特地展示了针对老年群体的完整攻击链路,凸显出现有AI安全措施未能有效保护最易受欺诈侵害的群体。除生成钓鱼内容外,大型语言模型使攻击者能够突破语言障碍,规模化开展多轮信任建立对话,从根本上改变了欺诈的经济模式。尽管部分服务商报告了自愿的反滥用措施,我们认为这些仍显不足。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
OpenAI GPT 4.5 报告 (中英文版)
专知会员服务
40+阅读 · 3月1日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
GitHub超9千星:一个API调用27个NLP预训练模型
新智元
17+阅读 · 2019年7月22日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
SSD多盒实时目标检测教程
论智
13+阅读 · 2018年4月5日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
GitHub超9千星:一个API调用27个NLP预训练模型
新智元
17+阅读 · 2019年7月22日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
SSD多盒实时目标检测教程
论智
13+阅读 · 2018年4月5日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员