As large language models increasingly mediate stigmatized health decisions, their capacity to genuinely understand complex psychological and physiological phenomena remains poorly evaluated. Can AI understand what we cannot say? We investigate whether LLMs coherently represent abortion stigma across the cognitive, interpersonal, and structural levels where it operates. We systematically tested 627 demographically diverse personas across five leading LLMs using the validated Individual Level Abortion Stigma Scale (ILAS). Our multilevel analysis examined whether models coherently represent stigma at the cognitive level (self-judgment), interpersonal level (worries about judgment and isolation), and structural level (community condemnation and disclosure patterns), as well as overall stigma. Models fail tests of genuine understanding across all levels. They overestimate interpersonal stigma while underestimating cognitive stigma, assume uniform community condemnation, introduce demographic biases absent from human validation data, miss the empirically validated stigma-secrecy relationship, and contradict themselves within theoretical constructs. These patterns reveal that current alignment approaches ensure appropriate language but not coherent multilevel understanding. This work provides empirical evidence that current LLMs lack coherent multilevel understanding of psychological and physiological constructs. AI safety in high-stakes contexts demands new approaches to design (multilevel coherence), evaluation (continuous auditing), governance and regulation (mandatory audits, accountability, deployment restrictions), and AI literacy in domains where understanding what people cannot say determines whether support helps or harms.


翻译:随着大型语言模型日益介入污名化的健康决策,其是否真正理解复杂的心理与生理现象仍缺乏充分评估。人工智能能否理解我们无法言说之事?本研究探讨LLMs能否在认知、人际和结构三个作用层面上连贯表征堕胎污名。我们使用经验证的个体层面堕胎污名量表(ILAS),在五个主流LLMs中对627个人口统计学特征各异的虚拟角色进行了系统测试。通过多层次分析,我们检验了模型能否在认知层面(自我评判)、人际层面(对评判与孤立的担忧)、结构层面(社区谴责与披露模式)以及整体污名维度上实现连贯表征。研究发现,模型在所有层面均未通过真正理解的测试:它们高估人际污名而低估认知污名,假定社区谴责具有同质性,引入人类验证数据中不存在的群体偏见,遗漏经验证实的污名-保密关联性,并在理论建构内部出现自相矛盾。这些模式表明,当前的对齐方法仅能确保语言表达的恰当性,却无法实现连贯的多层次理解。本研究为当前LLMs缺乏对心理与生理建构的连贯多层次理解提供了实证证据。在高风险情境中,AI安全需要在设计(多层次连贯性)、评估(持续审计)、治理与监管(强制审计、问责机制、部署限制)以及特定领域的AI素养方面探索新路径——在这些领域中,理解人们无法言说的内容将直接决定支持行为是利是害。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员