Obtaining large annotated datasets is critical for training successful machine learning models and it is often a bottleneck in practice. Weak supervision offers a promising alternative for producing labeled datasets without ground truth annotations by generating probabilistic labels using multiple noisy heuristics. This process can scale to large datasets and has demonstrated state of the art performance in diverse domains such as healthcare and e-commerce. One practical issue with learning from user-generated heuristics is that their creation requires creativity, foresight, and domain expertise from those who hand-craft them, a process which can be tedious and subjective. We develop the first framework for interactive weak supervision in which a method proposes heuristics and learns from user feedback given on each proposed heuristic. Our experiments demonstrate that only a small number of feedback iterations are needed to train models that achieve highly competitive test set performance without access to ground truth training labels. We conduct user studies, which show that users are able to effectively provide feedback on heuristics and that test set results track the performance of simulated oracles.


翻译:获得大量附加说明的数据集对于培训成功的机器学习模式至关重要,而且往往是实践中的一个瓶颈。 薄弱的监督为在没有地面事实说明的情况下制作标签的数据集提供了一个很有希望的替代方法,通过使用多种吵闹的杂音来制作概率性标签。 这一过程可以推广到大型的数据集,并展示了在诸如保健和电子商务等不同领域的先进性能。 从用户产生的超自然学中学习的一个实际问题是,它们的创造需要那些手工制作者的创新、远见和域域内专门知识,而这一过程可能是乏味的和主观的。 我们开发了第一个互动性薄弱的监督框架,在这个框架中,我们用一种方法提出超常学,并从用户对每种拟议的超自然学的反馈中学习。 我们的实验表明,只需要少量的反馈迭代来培训模型就可以在没有地面真相培训标签的情况下实现高度竞争性的测试集性能。 我们进行的用户研究表明,用户能够有效地提供关于超自然学的反馈,测试集结果跟踪模拟或触摸的性能。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
【KDD2020】图深度学习:基础、进展与应用,182页ppt
专知会员服务
135+阅读 · 2020年8月30日
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
小样本学习(Few-shot Learning)综述
黑龙江大学自然语言处理实验室
28+阅读 · 2019年4月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
0+阅读 · 2021年2月15日
Arxiv
0+阅读 · 2021年2月12日
Arxiv
6+阅读 · 2018年6月21日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
小样本学习(Few-shot Learning)综述
黑龙江大学自然语言处理实验室
28+阅读 · 2019年4月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员