Clinical interventions often hinge on age: medications and procedures safe for adults may be harmful to children or ineffective for older adults. However, as language models are increasingly integrated into biomedical evidence synthesis workflows, it remains uncertain whether these systems preserve such crucial demographic distinctions. To address this gap, we evaluate how well state-of-the-art language models retain age-related information when generating abstractive summaries of biomedical studies. We construct DemogSummary, a novel age-stratified dataset of systematic review primary studies, covering child, adult, and older adult populations. We evaluate three prominent summarisation-capable LLMs, Qwen (open-source), Longformer (open-source) and GPT-4.1 Nano (proprietary), using both standard metrics and a newly proposed Demographic Salience Score (DSS), which quantifies age-related entity retention and hallucination. Our results reveal systematic disparities across models and age groups: demographic fidelity is lowest for adult-focused summaries, and under-represented populations are more prone to hallucinations. These findings highlight the limitations of current LLMs in faithful and bias-free summarisation and point to the need for fairness-aware evaluation frameworks and summarisation pipelines in biomedical NLP.


翻译:临床干预措施常与年龄密切相关:对成年人安全的药物和手术可能对儿童有害或对老年人无效。然而,随着语言模型日益融入生物医学证据合成工作流程,这些系统是否能保持如此关键的人口统计学区分仍不确定。为填补这一空白,我们评估了先进语言模型在生成生物医学研究的抽象摘要时保留年龄相关信息的能力。我们构建了DemogSummary——一个新颖的按年龄分层系统综述原始研究数据集,涵盖儿童、成人和老年人群。我们评估了三种主流的具备摘要生成能力的大型语言模型:Qwen(开源)、Longformer(开源)和GPT-4.1 Nano(专有),同时采用标准指标和新提出的人口统计学显著性分数(DSS)进行衡量,该分数量化了年龄相关实体的保留程度与幻觉生成情况。我们的研究结果揭示了模型与年龄组间存在的系统性差异:以成人为中心的摘要人口统计学保真度最低,且代表性不足的群体更容易出现幻觉。这些发现凸显了当前大型语言模型在实现忠实且无偏见的摘要生成方面的局限性,并指出了生物医学自然语言处理领域对公平性评估框架与摘要生成流程的迫切需求。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员