Manual fact-checking does not scale well to serve the needs of the internet. This issue is further compounded in non-English contexts. In this paper, we discuss claim matching as a possible solution to scale fact-checking. We define claim matching as the task of identifying pairs of textual messages containing claims that can be served with one fact-check. We construct a novel dataset of WhatsApp tipline and public group messages alongside fact-checked claims that are first annotated for containing "claim-like statements" and then matched with potentially similar items and annotated for claim matching. Our dataset contains content in high-resource (English, Hindi) and lower-resource (Bengali, Malayalam, Tamil) languages. We train our own embedding model using knowledge distillation and a high-quality "teacher" model in order to address the imbalance in embedding quality between the low- and high-resource languages in our dataset. We provide evaluations on the performance of our solution and compare with baselines and existing state-of-the-art multilingual embedding models, namely LASER and LaBSE. We demonstrate that our performance exceeds LASER and LaBSE in all settings. We release our annotated datasets, codebooks, and trained embedding model to allow for further research.


翻译:手册中的事实检查并不适合互联网的需求。 这个问题在非英语环境中更为复杂。 在本文中, 我们讨论将索赔匹配作为衡量事实检查的可能解决方案。 我们将索赔匹配定义为确定包含索赔的文本信息对齐的任务, 其中包括可以使用一次事实检查的文本信息对齐; 我们建立一个关于“ WhesApp” 提示线和公共群体信息的新数据集, 以及经过事实核实的主张, 这些主张首先附加说明, 包含“ 类似索赔的声明”, 然后与可能相似的项目相匹配, 并附加索赔匹配的附加说明。 我们的数据集包含高资源( 英、印、 印) 和低资源( 班加里、 马拉亚拉姆、 泰米尔) 等语言的内容。 我们用知识蒸馏和高质量的“ 教师” 模型来培训我们自己的嵌入模型, 以解决将低资源语言和高资源语言的质量嵌入我们的数据集中的不平衡问题。 我们提供了解决方案绩效评估, 并与基线和现有先进的多语言嵌入模型( 即LASER和 LaBSE) 。 我们证明我们的业绩超越了我们经过培训的数据, 和升级到所有数据库。

0
下载
关闭预览

相关内容

【干货书】计算机科学家的数学,153页pdf
专知会员服务
174+阅读 · 2021年7月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
人工智能 | PRICAI 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年12月13日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
VIP会员
相关VIP内容
【干货书】计算机科学家的数学,153页pdf
专知会员服务
174+阅读 · 2021年7月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
人工智能 | PRICAI 2019等国际会议信息9条
Call4Papers
6+阅读 · 2018年12月13日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Top
微信扫码咨询专知VIP会员