We present an overview of the second edition of the CheckThat! Lab at CLEF 2019. The lab featured two tasks in two different languages: English and Arabic. Task 1 (English) challenged the participating systems to predict which claims in a political debate or speech should be prioritized for fact-checking. Task 2 (Arabic) asked to (A) rank a given set of Web pages with respect to a check-worthy claim based on their usefulness for fact-checking that claim, (B) classify these same Web pages according to their degree of usefulness for fact-checking the target claim, (C) identify useful passages from these pages, and (D) use the useful pages to predict the claim's factuality. CheckThat! provided a full evaluation framework, consisting of data in English (derived from fact-checking sources) and Arabic (gathered and annotated from scratch) and evaluation based on mean average precision (MAP) and normalized discounted cumulative gain (nDCG) for ranking, and F1 for classification. A total of 47 teams registered to participate in this lab, and fourteen of them actually submitted runs (compared to nine last year). The evaluation results show that the most successful approaches to Task 1 used various neural networks and logistic regression. As for Task 2, learning-to-rank was used by the highest scoring runs for subtask A, while different classifiers were used in the other subtasks. We release to the research community all datasets from the lab as well as the evaluation scripts, which should enable further research in the important tasks of check-worthiness estimation and automatic claim verification.


翻译:任务1(英文)对参与系统提出了挑战,要求它们预测在政治辩论或演讲中哪些权利主张应当优先进行事实审查。任务2(阿拉伯文)要求(A)将一组可核对的网页排列为一组符合核对要求的网页,其依据是它们对核实索赔的有用性,(B)根据这些网页对核实目标索赔的实用性程度对这些网页进行分类,(C)查明这些页面的有用段落,(D)使用有用的网页来预测索赔要求的真实性。任务1(英文)对参与系统提出了挑战,以预测在政治辩论或演讲中哪些权利主张应当优先进行事实审查。任务2(阿拉伯文)要求(阿拉伯文)根据平均精确度(MAP)和正常的折扣累积收益(NDCG),以及F1(分类)对这些网页进行分类。共有47个小组登记参加这个实验室,而其中14个小组实际提交了社区评估,(与9个相比)用于预测索赔要求的事实质量。 核对系统提供了完整的评价框架,包括英文数据(来自事实核对来源)和阿拉伯文(加注)和注释(从头数)的数据评估,在任务1(我们使用的)下,在任务1级评估中使用了不同等级(我们使用的)下,在任务下,评估中,在任务1级评估中采用了最成功的评估是不同的评估,在任务1级(我们使用的分级(我们使用的),在任务)下,在任务级)中,在评估是不同的评估是用于进行。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年6月12日
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
9+阅读 · 2017年7月28日
Arxiv
0+阅读 · 2021年11月19日
Arxiv
16+阅读 · 2021年7月18日
Arxiv
12+阅读 · 2019年3月14日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
9+阅读 · 2017年7月28日
Top
微信扫码咨询专知VIP会员