本报告详细介绍了用于标注文本中的错误信息指标、宣传和逻辑谬误的注释指南,最终形成了新颖的错误信息、宣传和谬误的组合注释,并以稳健和可解释的方式加以识别(CAMPFIRE)语料库。我们介绍了开发这一注释模式的动机及其与其他并行注释的关系。我们将介绍 COVID-19 相关文本语料库的收集情况,并提供注释示例。最后,我们将介绍如何利用该语料库开发交互式问题解答和信息提取系统,该系统能够自动检测和解释查询文档中潜在的错误信息。
本报告中对错误信息指标的探讨与一个更广泛的信息搜索系统开发研究项目相吻合,该系统有别于典型的问题解答系统,用户可以提出一个完整的、不受限制的自然语言问题(而不是仅限于关键词搜索)。其目标不是在一次性互动中返回单一答案,而是鼓励用户与系统之间进行持续互动,以寻找一系列相关答案,这些答案可能在侧重点、体裁以及真实价值和错误或虚假信息状态方面存在差异。在这种设想的交互中,系统检测和识别潜在错误信息指标的能力变得至关重要,如图 1 所示,系统在回答用户的问题--"我是否需要对我的口罩进行消毒?"时,既可以给出文档中确定的答案(即 "这里有一篇文章声称正确护理口罩的重要性"),也可以发出警告,提醒用户注意潜在的指标,对检索到的文档中的句子进行补充。这一交流描绘了我们的长期愿景,即如何将问题解答、信息觅寻和错误或虚假信息检测统一在一个框架下。
图 1 通过对话回答用户问题、检索文档并突出和标注错误信息标记的交流设想
为了支持错误信息检测,我们首先对我们感兴趣的领域中的错误信息指标进行了标注:科学论文、一般新闻和谈话广播,以及与 COVID-19 相关的医疗保健网站和社交媒体帖子。我们的注释模式最初基于 Habernal 等人(2017 年)的注释模式,该模式侧重于五种逻辑谬误: 谩骂、情感诉求、红鲱鱼、草率概括和无关权威。作为第一步,我们评估了现有的注释模式,衡量了注释者在对语料进行双盲注释时就类别达成一致的能力,并评估了注释数据作为误导自动检测训练数据的可行性(Bonial 等,2022a, 2022b)。我们的评估结果表明,模式类别不够清晰,无法支持训练有素的注释者之间的高一致率,这导致自动系统性能不佳。因此,我们开始开发自己的模式,继续借鉴现有的注释资源,但反复评估以获得令人满意的一致率。尽管我们在将其应用于新数据并测量一致性的过程中仍在不断完善该模式,但下文将对当前的模式进行描述。
本报告的以下部分介绍了错误信息、宣传和谬误的综合注释(CAMPFIRE)模式和语料库。第 2 节介绍了注释模式,并为注释者提供了详细说明。第 3 节介绍 CAMPFIRE 语料库。第 4 节介绍相关工作。第 5 节是结论和未来工作的细节。第 6 节列出了参考文献。附录 A-C 分别介绍了如何应用注释模式、模式的历史以及本技术报告中使用的符号和记号。