【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

2022 年 10 月 20 日 专知

在本教程中，我们将介绍通过公共众包市场进行的数据标记，并介绍一些有效收集标记数据的关键技术，包括聚合、增量重标记和动态定价。

接下来是一个练习环节，参与者选择一个真实的标签收集任务，实验选择标签过程的设置，并在最大的众包市场之一上启动自己的标签收集项目。在教程期间，所有项目都在真正的Toloka人群上运行。当我们在等待群体表演者对参与者的项目进行注释时，我们提出了在高效聚合、增量重标签和动态定价方面的主要理论结果。我们还讨论了众包的优势和劣势，以及对现实任务的适用性，总结了我们5年来在众包方面的研究和行业专业知识。所有参与者都会收到关于他们项目的反馈和实用建议。

讲者：

目录内容：

引言 Part 0: Introduction

— The concept of crowdsourcing

— Crowdsourcing task examples

— Crowdsourcing platforms
— Yandex crowdsourcing experience

众包数据收集 Part I: Main components of data collection via crowdsourcing

— Decomposition for an effective pipeline
— Task instruction & interface: best practices
— Quality control techniques

Part II: Introduction to Toloka for requesters

— How Toloka works
— Types of tasks in Toloka
— Creating a project in Toloka

Part III: Brainstorming the pipeline

— Dataset and required labels
— Discussion: how to collect labels?
— Data labeling pipeline for implementation

Part IV: Practical Session

Participants:
— create
— configure
— run data labeling projects on real performers in real-time

Part V: Theory on efficient aggregation

— Aggregation models
— Incremental relabeling
— Dynamic pricing

Part VI: Practical Session

— Completing the label collection process

Part VII: Discussion of results and conclusions

— Project results
— Ideas for further work and research
— References to literature and other tutorials

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“C180” 就可以获取《【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

相关内容

数据标签

关注 0

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

【KDD2022-教程】深度搜索相关性排名的实践，74页ppt

专知会员服务

23+阅读 · 2022年9月4日

「图神经网络:基础、前沿与应用」最新KDD2022教程，214页ppt全面阐述GNN最新进展

专知会员服务

287+阅读 · 2022年7月27日

【NAACL2022】自然语言处理的对比数据与学习

专知会员服务

46+阅读 · 2022年7月10日

【2022新书】高效深度学习，Efficient Deep Learning Book

专知会员服务

126+阅读 · 2022年4月21日

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

专知会员服务

48+阅读 · 2021年2月12日

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知会员服务

41+阅读 · 2020年10月13日

【Salesforce】最新《小样本自然语言处理的元学习》综述论文

专知会员服务

80+阅读 · 2020年7月21日

【KDD2019|讲座推荐】从海量文本中构建和挖掘异构信息网络：Constructing and Mining Heterogeneous Information Networks from Massive Text

专知会员服务

47+阅读 · 2019年12月11日

不可错过！斯坦福《图学习》研讨会，Jure Leskovec主持，附slides！

图与推荐

0+阅读 · 2022年10月7日

「图神经网络:基础、前沿与应用」最新IJCAI2022教程，204页ppt全面阐述GNN最新进展

专知

3+阅读 · 2022年7月27日

【NAACL2022】自然语言处理的对比数据与学习，157页ppt与视频

专知

2+阅读 · 2022年7月10日

低资源如何用深度模型？【2022新书】高效深度学习: 更快更小更好的模型，Efficient Deep Learning全面解答

专知

2+阅读 · 2022年4月22日

实践教程 | 如何设置CUDA Kernel中的grid_size和block_size？

极市平台

0+阅读 · 2022年1月16日

【CIKM2021-Tutorial】图挖掘公平性，166页ppt

图与推荐

4+阅读 · 2021年11月7日

IJCAI2021 | 深度推荐系统教程 (附Slides)

机器学习与推荐算法

1+阅读 · 2021年8月25日

KDD2021 | 最新GNN官方教程

机器学习与推荐算法

2+阅读 · 2021年8月18日

图卷积神经网络自然语言处理应用代码和教程

专知

39+阅读 · 2019年5月21日

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

基于在线消费者购买意向挖掘的个性化推荐研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于众包的数据清洗关键技术研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向ICN的网络级内嵌式缓存构架与配置管理方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于主动服务聚合的社交网络大数据质量自动提升技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于社会化机会物联的移动用户感知信息收集服务研究

国家自然科学基金

0+阅读 · 2012年12月31日

增量协同过滤模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

数据质量管理的基础理论与关键技术

国家自然科学基金

3+阅读 · 2011年12月31日

基于Levy过程的Malliavin计算及其应用研究—#8212;衍生产品定价、灵敏性分析及数值算法

国家自然科学基金

0+阅读 · 2011年12月31日

大规模数据的语义集成

国家自然科学基金

1+阅读 · 2011年12月31日

Masked Contrastive Pre-Training for Efficient Video-Text Retrieval

Arxiv

0+阅读 · 2022年12月5日

Fast and accurate factorized neural transducer for text adaption of end-to-end speech recognition models

Arxiv

0+阅读 · 2022年12月5日

Improving Pareto Front Learning via Multi-Sample Hypernetworks

Arxiv

0+阅读 · 2022年12月2日

One-Shot Learning of Stochastic Differential Equations with Data Adapted Kernels

Arxiv

0+阅读 · 2022年12月2日

FoPro: Few-Shot Guided Robust Webly-Supervised Prototypical Learning

Arxiv

0+阅读 · 2022年12月1日

A Light-weight, Effective and Efficient Model for Label Aggregation in Crowdsourcing

Arxiv

0+阅读 · 2022年11月19日

Cross-Domain Adaptive Clustering for Semi-Supervised Domain Adaptation

Arxiv

19+阅读 · 2021年4月19日

Adversarial Mutual Information for Text Generation

Arxiv

13+阅读 · 2020年6月30日

RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

Arxiv

11+阅读 · 2019年11月25日

A Comprehensive Survey on Transfer Learning

Arxiv

121+阅读 · 2019年11月7日

VIP会员