机器学习的视觉分析最近已经发展成为可视化领域中最令人兴奋的领域之一。为了更好地确定哪些研究课题是有前景的,并学习如何在视觉分析中应用相关技术,我们系统地回顾了近十年来发表的259篇论文以及2010年之前的代表性作品。我们构建一个分类法,其中包括三个第一级类别:构建模型之前的技术、构建建模期间的技术和构建模型之后的技术。每个类别的进一步特征是具有代表性的分析任务,每个任务都以一组最近有影响的著作为例。我们也讨论并强调研究的挑战和对视觉分析研究人员有用的潜在未来研究机会。
最近人工智能应用的成功依赖于机器学习模型[1]的性能和能力。在过去的十年里,各种视觉分析方法被提出,使机器学习更加可解释、可信和可靠。这些研究努力充分结合交互式可视化和机器学习技术的优势,便于分析和理解学习过程中的主要组件,以提高性能。例如,用于解释深度卷积神经网络内部工作原理的可视化分析研究增加了深度学习模型的透明度,并在最近受到了越来越多的关注[1-4]。
用于机器学习的视觉分析技术的快速发展产生了对这一领域进行全面回顾的需求,以支持理解可视化技术是如何设计并应用于机器学习管道的。已有几项初步努力从不同的观点总结这一领域的进展。例如,Liu等人[5]总结了文本分析的可视化技术。Lu等人对预测模型的可视化分析技术进行了调查。最近,Liu等人[1]发表了一篇从视觉分析的角度分析机器学习模型的论文。Sacha等[7]分析了一组示例系统,提出了一种用于视觉分析辅助机器学习的本体。然而,现有的调研要么专注于机器学习的一个特定领域(例如,文本挖掘[5],预测模型[6],模型理解[1]),要么仅基于一组示例技术来勾画本体[7]。
本文旨在对机器学习的视觉分析技术进行全面的综述,重点介绍机器学习管道的各个阶段。我们主要关注可视化社区中的工作。然而,人工智能社区也对深度学习模型中视觉解释特征检测器的研究做出了坚实的贡献。例如,Selvaraju等人[8]试图通过计算类激活映射来识别图像中分类结果敏感的部分。读者可以参考张、朱[9]和Hohman等人[3]的调查。通过系统的程序,我们在过去的十年中收集了259篇来自相关顶级场所的论文。基于机器学习流水线,我们将这篇文献分为建模前、建模中、建模后三个阶段。我们分析了可视化分析技术在这三个阶段的功能,并抽象了典型任务,包括在建模前提高数据质量和特征质量,建模过程中的模型理解、诊断和转向,以及建模后的数据理解。每个任务都由一组精心挑选的例子来说明。我们强调了机器学习视觉分析领域六个突出的研究方向和开放问题。我们希望这项调查能够促进机器学习相关视觉分析技术的讨论,并为希望开发机器学习的视觉分析工具的从业者和研究人员提供一个起点。