How do language models use contextual information to answer health questions? How are their responses impacted by conflicting contexts? We assess the ability of language models to reason over long, conflicting biomedical contexts using HealthContradict, an expert-verified dataset comprising 920 unique instances, each consisting of a health-related question, a factual answer supported by scientific evidence, and two documents presenting contradictory stances. We consider several prompt settings, including correct, incorrect or contradictory context, and measure their impact on model outputs. Compared to existing medical question-answering evaluation benchmarks, HealthContradict provides greater distinctions of language models' contextual reasoning capabilities. Our experiments show that the strength of fine-tuned biomedical language models lies not only in their parametric knowledge from pretraining, but also in their ability to exploit correct context while resisting incorrect context.


翻译:语言模型如何利用上下文信息来回答健康问题?当上下文存在冲突时,其回答会受到怎样的影响?我们通过HealthContradict评估语言模型在长且相互矛盾的生物医学上下文中的推理能力。HealthContradict是一个经过专家验证的数据集,包含920个独特实例,每个实例由一个健康相关问题、一个有科学证据支持的事实性答案,以及两份呈现对立观点的文档组成。我们考虑了多种提示设置,包括正确、错误或矛盾的上下文,并测量了它们对模型输出的影响。与现有的医学问答评估基准相比,HealthContradict能更好地区分语言模型的上下文推理能力。我们的实验表明,经过微调的生物医学语言模型的优势不仅在于其预训练获得的参数化知识,还在于其能够有效利用正确上下文并抵抗错误上下文的能力。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年8月22日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员