Existing fact-checking models for biomedical claims are typically trained on synthetic or well-worded data and hardly transfer to social media content. This mismatch can be mitigated by adapting the social media input to mimic the focused nature of common training claims. To do so, Wuehrl & Klinger (2022) propose to extract concise claims based on medical entities in the text. However, their study has two limitations: First, it relies on gold-annotated entities. Therefore, its feasibility for a real-world application cannot be assessed since this requires detecting relevant entities automatically. Second, they represent claim entities with the original tokens. This constitutes a terminology mismatch which potentially limits the fact-checking performance. To understand both challenges, we propose a claim extraction pipeline for medical tweets that incorporates named entity recognition and terminology normalization via entity linking. We show that automatic NER does lead to a performance drop in comparison to using gold annotations but the fact-checking performance still improves considerably over inputting the unchanged tweets. Normalizing entities to their canonical forms does, however, not improve the performance.


翻译:现有的医学声明事实检查模型通常是在合成或措辞良好的数据上进行训练,很难转移到社交媒体内容上。通过调整社交媒体输入以模拟通用培训声明的关注重点,可以缓解这种不匹配。为此,Wuehrl&Klinger(2022)建议根据文本中的医学实体提取简明的声明。然而,他们的研究有两个限制:首先,它依赖于黄金注释的实体。因此,无法评估其在实际应用中的可行性,因为这需要自动检测相关实体。其次,他们用原始标记表示声明实体。这构成了一个术语不匹配,可能限制了事实检查性能。为了了解这两个挑战,我们提出了一个用于医学推文的声明提取流水线,其中包括命名实体识别和通过实体链接进行术语归一化。我们表明,与使用黄金注释相比,自动NER确实会导致性能下降,但事实检查性能仍然比输入未更改的推文显着提高。但是,将实体归一化为它们的规范形式并不能提高性能。

0
下载
关闭预览

相关内容

实体(entity)是有可区别性且独立存在的某种事物,但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里,这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面,实体可以被视为一全包的词语。有时,实体被当做本质的广义,不论即指的是否为物质上的存在,如时常会指涉到的无物质形式的实体-语言。更有甚者,实体有时亦指存在或本质本身。在法律上,实体是指能具有权利和义务的事物。这通常是指法人,但也包括自然人。
【AAAI2022】上下文感知的词语替换与文本溯源
专知会员服务
18+阅读 · 2022年1月23日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
黑龙江大学自然语言处理实验室
19+阅读 · 2017年12月14日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员