The integration of Large Language Models (LLMs) into healthcare demands a safety paradigm rooted in \textit{primum non nocere}. However, current alignment techniques rely on generic definitions of harm that fail to capture context-dependent violations, such as administrative fraud and clinical discrimination. To address this, we introduce Medical Malice: a dataset of 214,219 adversarial prompts calibrated to the regulatory and ethical complexities of the Brazilian Unified Health System (SUS). Crucially, the dataset includes the reasoning behind each violation, enabling models to internalize ethical boundaries rather than merely memorizing a fixed set of refusals. Using an unaligned agent (Grok-4) within a persona-driven pipeline, we synthesized high-fidelity threats across seven taxonomies, ranging from procurement manipulation and queue-jumping to obstetric violence. We discuss the ethical design of releasing these "vulnerability signatures" to correct the information asymmetry between malicious actors and AI developers. Ultimately, this work advocates for a shift from universal to context-aware safety, providing the necessary resources to immunize healthcare AI against the nuanced, systemic threats inherent to high-stakes medical environments -- vulnerabilities that represent the paramount risk to patient safety and the successful integration of AI in healthcare systems.


翻译:将大型语言模型(LLMs)整合至医疗健康领域,需要一种以‘首先,不伤害’(primum non nocere)为根基的安全范式。然而,当前的对齐技术依赖于对伤害的通用定义,无法捕捉情境相关的违规行为,例如行政欺诈和临床歧视。为解决此问题,我们引入了Medical Malice:一个包含214,219条对抗性提示的数据集,这些提示根据巴西统一医疗系统(SUS)的监管与伦理复杂性进行校准。关键在于,该数据集包含了每次违规背后的推理过程,使模型能够内化伦理边界,而非仅仅记忆一组固定的拒绝模式。通过在一个角色驱动的流程中使用未经对齐的智能体(Grok-4),我们合成了涵盖七个分类的高保真威胁,范围从采购操纵、插队到产科暴力。我们讨论了发布这些‘漏洞特征’以纠正恶意行为者与AI开发者之间信息不对称的伦理设计。最终,这项工作倡导从普适性安全转向情境感知安全,为高风险医疗环境中固有的、细微且系统性的威胁——这些威胁代表了患者安全和AI在医疗系统中成功整合所面临的首要风险——提供必要的资源,以增强医疗AI的免疫力。

0
下载
关闭预览

相关内容

【ECCV2024】开放世界动态提示与持续视觉表征学习
专知会员服务
25+阅读 · 2024年9月10日
【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员