本书是对机器学习一个领域的全面综述,处理在分类问题中的未标记数据的使用: 最先进的算法,该领域的分类,应用,基准实验,和未来的研究方向。
在机器学习领域,半监督学习(SSL)处于监督学习(其中所有训练示例都被标记)和非监督学习(其中不给出标记数据)之间。近年来,人们对SSL的兴趣有所增加,特别是在图像、文本和生物信息学等未标记数据丰富的应用领域。这是对SSL的第一次全面概述,介绍了最先进的算法、该领域的分类、选定的应用程序、基准测试,以及对未来研究的展望。半监督学习首先提出了该领域的关键假设和思想:平滑性、聚类或低密度分离、流形结构和转导。本书的核心是介绍根据算法策略组织的SSL方法。经过对生成模型的检查,本书描述了实现低密度分离假设的算法,基于图的方法,和执行两步学习的算法。然后,本书讨论了SSL应用程序,并通过分析大量基准测试的结果为SSL实践者提供了指导方针。最后,本书还介绍了SSL研究的有趣方向。本书以半监督学习和转导之间的关系的讨论结束。