机器视觉通过使机器能够解读和处理视觉数据,增强了工业应用中的自动化、质量控制和运营效率。尽管传统的计算机视觉算法和方法仍被广泛使用,但机器学习在当前的研究活动中已变得至关重要。特别是,生成式人工智能(AI)展示了通过数据增强、提高图像分辨率以及识别质量控制中的异常,从而改善模式识别能力的潜力。然而,由于数据多样性、计算需求以及对稳健验证方法的必要性等挑战,生成式AI在机器视觉中的应用仍处于早期阶段。为全面了解生成式AI在工业机器视觉中的现状,特别是最近的进展、应用和研究趋势,进行了一次基于PRISMA指南的文献综述,分析了超过1200篇关于工业机器视觉中生成式AI的论文。我们的研究发现揭示了当前研究中的各种模式,生成式AI的主要用途是数据增强,用于分类和目标检测等机器视觉任务。此外,我们收集了一系列应用挑战及数据需求,以促进生成式AI在工业机器视觉中的成功应用。本综述旨在为研究人员提供对当前研究中不同领域和应用的深入见解,突出重要进展并识别未来工作的机会。
关键词:机器视觉,生成式人工智能,深度学习,机器学习,制造业 1 引言
视觉检查由受过培训的检查员执行,仍在工业中广泛使用,但自20世纪70年代以来,自动化机器视觉已被系统地引入[1]。工业机器视觉是现代制造过程中的关键组成部分,涉及图像的处理和分析,以自动化任务,包括质量检查、物体或缺陷检测以及过程控制[2]。传统的计算机视觉系统依赖于需要手工设计特征的经典算法和技术,虽然这些方法在实践中很有效,但在处理具有显著变化性和不可预见情况的复杂场景时存在局限性[2, 3]。在20世纪80年代和90年代,随着数字图像处理、纹理和颜色分析等技术的进步,并有更好的硬件和软件支持,机器视觉技术得到了发展[4]。当时,任务如质量检测和物体识别主要依赖于预定义的算法[3, 5]。 20世纪90年代末和2000年代初,机器学习逐渐兴起,支持向量机(SVM)[6]、随机森林[7]和人工神经网络(ANN)等模型使系统能够以数据驱动的方式进行学习,提高了它们应对现实世界中变化和复杂性的能力[2]。机器视觉领域的真正革命出现在2010年代,随着深度学习(DL)的发展。卷积神经网络(CNN)在图像处理任务中表现出极强的能力。CNN使机器能够从原始图像数据中自动学习层次特征,大大提高了在图像分类、图像分割、目标检测、缺陷检测和姿态估计等任务中的性能[4, 9-11]。像AlexNet、VGG和ResNet这样的里程碑模型展示了深度学习的潜力,迅速在学术研究和工业界得到了广泛应用[2]。 生成式人工智能(GenAI)代表了机器视觉演变中的最新前沿。与传统的区分性模型用于分类或识别模式不同,GenAI模型能够创建新的数据实例。虽然大多数流行的GenAI模型和创新设计是为了与人类互动,但探索GenAI如何改变工业制造领域具有重要的机会。类似于数据生成的替代方法如模拟需要专家领域知识和手动执行,因此在工业制造应用中,它们的使用仅限于预处理和后处理步骤。而GenAI方法一旦训练完成,具有在制造过程中自动化当前手动处理步骤的潜力。由于其前景广阔,GenAI已被应用于不同的机器视觉用例,其中每个提出的解决方案都是在特定用例约束下开发的。这些在机器视觉研究领域中积累的发现和经验为其他从业者提供了宝贵的见解,帮助他们在自己的研究中使用GenAI。尽管已有关于将GenAI应用于各种机器视觉用例的知识,但据我们所知,目前尚无专门针对工业机器视觉中GenAI的综述,汇总已有的应用经验。现有的文献综述中提及GenAI在工业机器视觉中的应用时,主要关注的是AI在特定制造领域(如印刷电路板[12]、硅片[13]、一般缺陷识别[14]或表面缺陷识别[15])中的应用。 本综述的贡献包括:(i)概述了工业机器视觉应用中使用的GenAI方法,(ii)提供了应用GenAI时的工具、潜力和挑战的概述,以及(iii)展示了GenAI在典型机器视觉应用中的益处,为从业者提供参考。 基于这些目标,我们提出了以下在本综述中探讨的研究问题:
本文结构如下:第2节首先概述了GenAI领域及其方法。第3节介绍了文献综述的方法,包括对排除标准的推导和选择信息提取的详细理由。第4节展示了搜索结果及其特征,并对提取的数据进行了广泛分析。第5节讨论了文献综述的结果,并结合研究问题进行探讨。讨论还包括对所用文献综述方法中的偏见和局限性的反思。最后,本文总结了本综述的主要结果,并提出了在工业机器视觉任务中应用GenAI的指导原则。
2 生成式人工智能
生成式人工智能(GenAI)领域代表了旨在学习给定数据集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半监督和无监督深度学习技术。在深度学习的背景下,GenAI方法使用参数化的人工神经网络(ANNs)来近似概率分布 p(x)p(x)p(x),这些网络通过权重 Θ\ThetaΘ 进行参数化,从而得到一个参数化模型 pΘ(x)p_\Theta(x)pΘ(x)。与判别式深度学习技术相比,判别式技术近似的是在给定输入 xxx 的情况下,属性(或标签) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于从训练数据分布中抽取类似样本 x~∼pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~∼pΘ(x~) [16]。 对 p(x)p(x)p(x) 的估计可以分为显式和隐式两种方法。显式估计模型尝试提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的参数化,而隐式估计模型则构建一个合成数据的随机过程[17]。生成式人工智能的分类概述(参见图1)总结了现有估计 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不论模型类型如何,它们生成逼真高分辨率图像的能力使得它们在解决诸如图像修复、图像去噪、图像到图像翻译以及其他图像编辑问题等经典计算机视觉任务中得到了广泛应用。它们在学术基准测试中的出色表现,使其在机器视觉领域中具有重要意义。每种模型架构的进一步描述及其优缺点将在以下小节中进行探讨。 3 研究方法
如引言中所述,本篇文献综述旨在概述生成式人工智能(GenAI)在工业机器视觉领域中的方法和应用,特别是针对制造业应用。该综述采用了系统评价和荟萃分析的首选报告项目(PRISMA)方法进行,PRISMA方法旨在以透明、完整和准确的方式呈现和生成系统性综述[36]。基于该方法,以下各节将介绍系统性综述的实施方法。首先,介绍了以排除标准形式出现的适用性衡量标准,以及搜索策略和所使用的文献数据库(参见第3.1节)。接下来是研究选择过程(参见第3.2节)和数据提取(参见第3.3节)。