主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习、最优实验设计。“学习模块”和“选择策略”是主动学习算法的2个基本且重要的模块。 主动学习是“一种学习方法,在这种方法中,学生会主动或体验性地参与学习过程,并且根据学生的参与程度,有不同程度的主动学习。” (Bonwell&Eison 1991)Bonwell&Eison(1991) 指出:“学生除了被动地听课以外,还从事其他活动。” 在高等教育研究协会(ASHE)的一份报告中,作者讨论了各种促进主动学习的方法。他们引用了一些文献,这些文献表明学生不仅要做听,还必须做更多的事情才能学习。他们必须阅读,写作,讨论并参与解决问题。此过程涉及三个学习领域,即知识,技能和态度(KSA)。这种学习行为分类法可以被认为是“学习过程的目标”。特别是,学生必须从事诸如分析,综合和评估之类的高级思维任务。

VIP内容

当今世界上部署的大多数机器学习系统都是从人类反馈中学习的。然而,大多数机器学习课程几乎只关注算法,而不是系统的人机交互部分。这可能会给在现实世界机器学习领域工作的数据科学家留下一个巨大的知识鸿沟,在现实世界机器学习领域,数据科学家花在数据管理上的时间多于构建算法的时间。Human-in-the-Loop Machine Learning是优化整个机器学习过程的实用指南,包括注释、主动学习、迁移学习技术,以及使用机器学习来优化过程的每一步。

https://www.manning.com/books/human-in-the-loop-machine-learning

作者:

Robert (Munro) Monarch是一名数据科学家和工程师,曾为苹果、亚马逊、谷歌和IBM等公司开发过机器学习数据。他拥有斯坦福大学的博士学位。

本书组织

本书共分为四个部分:绪论;对主动学习的深入研究;对注释的深入研究;最后一部分,将所有内容与人机界面的设计策略以及三个实现示例结合在一起。

本书的第一部分介绍了创建培训和评估数据的构建模块:注释、主动学习和人机交互概念,帮助人类和机器最有效地结合他们的智能。在第2章结束时,您将构建一个用于标记新闻标题的人在循环机器学习应用程序,完成从注释新数据到重新训练模型,然后使用新模型来帮助决定下一个应该注释哪些数据的循环。

第2部分介绍了主动学习——一组用于对最重要的数据进行抽样以供人类审查的技术。第3章涵盖了理解模型不确定性的最广泛使用的技术,第4章处理了一个复杂的问题,即识别您的模型在哪些地方可能是可靠的,但由于采样不足或非代表性数据而出错。第5章介绍了将不同的策略组合成一个全面的主动学习系统的方法,第6章介绍了主动学习技术如何应用于不同类型的机器学习任务。

第3部分介绍注释—为训练和评估数据获取准确和有代表性的标签时经常被低估的问题。第7章介绍了如何找到和管理正确的人员来注释数据。第八章介绍了标注质量控制的基础知识,介绍了最常用的计算精度和一致性的方法。第9章介绍了注释质量控制的高级策略,包括对主观任务的注释,以及使用基于规则的系统、基于搜索的系统、迁移学习、半监督学习、自监督学习和合成数据创建的各种半自动注释方法。第10章介绍了如何针对不同类型的机器学习任务管理注释。

第4部分完成了“循环”,在第11章中深入探讨了有效注释的接口,在第12章中介绍了三个人在循环中的机器学习应用程序示例。在整本书中,我们不断地回到不同类型的机器学习任务的例子:图像和文档级标记、连续数据、目标检测、语义分割、序列标记、语言生成和信息检索。内页包含了快速参考资料,告诉你在哪里可以找到这些任务。

代码地址:

https://github.com/rmunro/pytorch_active_learning

成为VIP会员查看完整内容
0
31

最新论文

Unsupervised domain adaptation has recently emerged as an effective paradigm for generalizing deep neural networks to new target domains. However, there is still enormous potential to be tapped to reach the fully supervised performance. In this paper, we present a novel active learning strategy to assist knowledge transfer in the target domain, dubbed active domain adaptation. We start from an observation that energy-based models exhibit free energy biases when training (source) and test (target) data come from different distributions. Inspired by this inherent mechanism, we empirically reveal that a simple yet efficient energy-based sampling strategy sheds light on selecting the most valuable target samples than existing approaches requiring particular architectures or computation of the distances. Our algorithm, Energy-based Active Domain Adaptation (EADA), queries groups of targe data that incorporate both domain characteristic and instance uncertainty into every selection round. Meanwhile, by aligning the free energy of target data compact around the source domain via a regularization term, domain gap can be implicitly diminished. Through extensive experiments, we show that EADA surpasses state-of-the-art methods on well-known challenging benchmarks with substantial improvements, making it a useful option in the open world. Code is available at https://github.com/BIT-DA/EADA.

0
5
下载
预览
参考链接
父主题
Top