Quality control is a crux of crowdsourcing. While most means for quality control are organizational and imply worker selection, golden tasks, and post-acceptance, computational quality control techniques allow parameterizing the whole crowdsourcing process of workers, tasks, and labels, inferring and revealing relationships between them. In this paper, we demonstrate Crowd-Kit, a general-purpose crowdsourcing computational quality control toolkit. It provides efficient implementations in Python of computational quality control algorithms for crowdsourcing, including uncertainty measures and crowd consensus methods. We focus on aggregation methods for all the major annotation tasks, from the categorical annotation in which latent label assumption is met to more complex tasks like image and sequence aggregation. We perform an extensive evaluation of our toolkit on several datasets of different nature, enabling benchmarking computational quality control methods in a uniform, systematic, and reproducible way using the same codebase. We release our code and data under an open-source license at https://github.com/Toloka/crowd-kit.


翻译:质量控制是众包的柱石。 虽然质量控制的大部分手段是组织性的,意味着工人的选择、黄金任务和接受后的任务,但计算质量控制技术允许将工人、任务和标签的整个众包过程、任务和标签的参数化,推断和揭示他们之间的关系。在本文中,我们展示了通用的众包计算质量控制工具包Crowd-Kit,这是一个通用的众包计算质量控制工具包。它为在Python实施众包的计算质量控制算法提供了有效的实施,包括不确定性措施和人群共识方法。我们侧重于所有主要批注任务的汇总方法,从满足潜在标签假设的绝对注解到图像和序列汇总等更为复杂的任务。我们对关于不同性质的若干数据集的工具包进行了广泛的评估,从而能够以统一、系统和可复制的方式将计算质量控制方法基准化为同一代码库。我们在http://github.com/Toloka/crowd-kit的公开源许可下发布了我们的代码和数据。

1
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
75+阅读 · 2020年5月5日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
49+阅读 · 2019年9月24日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月12日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
VIP会员
相关VIP内容
Python图像处理,366页pdf,Image Operators Image Processing in Python
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
75+阅读 · 2020年5月5日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
49+阅读 · 2019年9月24日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月12日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员