在本教程中,我们将介绍通过公共众包市场进行的数据标记,并介绍一些有效收集标记数据的关键技术,包括聚合、增量重标记和动态定价。

接下来是一个练习环节,参与者选择一个真实的标签收集任务,实验选择标签过程的设置,并在最大的众包市场之一上启动自己的标签收集项目。在教程期间,所有项目都在真正的Toloka人群上运行。当我们在等待群体表演者对参与者的项目进行注释时,我们提出了在高效聚合、增量重标签和动态定价方面的主要理论结果。我们还讨论了众包的优势和劣势,以及对现实任务的适用性,总结了我们5年来在众包方面的研究和行业专业知识。所有参与者都会收到关于他们项目的反馈和实用建议。

讲者:

目录内容:

引言 Part 0: Introduction— The concept of crowdsourcing— Crowdsourcing task examples— Crowdsourcing platforms — Yandex crowdsourcing experience

众包数据收集 Part I: Main components of data collection via crowdsourcing — Decomposition for an effective pipeline — Task instruction & interface: best practices — Quality control techniques Part II: Introduction to Toloka for requesters — How Toloka works — Types of tasks in Toloka — Creating a project in Toloka Part III: Brainstorming the pipeline — Dataset and required labels — Discussion: how to collect labels? — Data labeling pipeline for implementation Part IV: Practical Session Participants: — create — configure — run data labeling projects on real performers in real-time Part V: Theory on efficient aggregation — Aggregation models — Incremental relabeling — Dynamic pricing Part VI: Practical Session — Completing the label collection process Part VII: Discussion of results and conclusions — Project results — Ideas for further work and research — References to literature and other tutorials

成为VIP会员查看完整内容
9

相关内容

ACM SIGMOD数据管理国际会议(Special Interest Group on Management Of Data.)是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议。会议的目的是在全球范围内为数据库领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台,引导和促进数据库学科的发展。
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
39+阅读 · 2022年5月27日
Meta最新WWW2022《联邦计算导论》教程,附77页ppt
专知会员服务
59+阅读 · 2022年5月5日
【AAAI2022】面向多标签分类的端到端概率标签特征学习
专知会员服务
30+阅读 · 2022年1月27日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
动手实现推荐系统评价指标
机器学习与推荐算法
1+阅读 · 2022年6月1日
实操教程|用Pytorch训练神经网络
极市平台
0+阅读 · 2022年4月22日
实践教程|如何用YOLOX训练自己的数据集?
极市平台
0+阅读 · 2022年1月5日
【资源】强化学习实践教程
专知
43+阅读 · 2019年9月11日
PyTorch 学习笔记(一):让PyTorch读取你的数据集
极市平台
16+阅读 · 2019年4月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
16+阅读 · 2022年11月1日
Arxiv
25+阅读 · 2022年1月3日
Arxiv
21+阅读 · 2021年12月31日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
17+阅读 · 2020年11月15日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
136+阅读 · 2018年10月8日
VIP会员
相关VIP内容
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
39+阅读 · 2022年5月27日
Meta最新WWW2022《联邦计算导论》教程,附77页ppt
专知会员服务
59+阅读 · 2022年5月5日
【AAAI2022】面向多标签分类的端到端概率标签特征学习
专知会员服务
30+阅读 · 2022年1月27日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
动手实现推荐系统评价指标
机器学习与推荐算法
1+阅读 · 2022年6月1日
实操教程|用Pytorch训练神经网络
极市平台
0+阅读 · 2022年4月22日
实践教程|如何用YOLOX训练自己的数据集?
极市平台
0+阅读 · 2022年1月5日
【资源】强化学习实践教程
专知
43+阅读 · 2019年9月11日
PyTorch 学习笔记(一):让PyTorch读取你的数据集
极市平台
16+阅读 · 2019年4月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
16+阅读 · 2022年11月1日
Arxiv
25+阅读 · 2022年1月3日
Arxiv
21+阅读 · 2021年12月31日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
17+阅读 · 2020年11月15日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
136+阅读 · 2018年10月8日
微信扫码咨询专知VIP会员