大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

尽管人工智能，特别是深度学习在智能制造的各个方面都有显著的改进，但由于泛化能力差、建立高质量训练数据集的困难以及深度学习方法的不尽人意的性能，这些技术在广泛应用方面仍面临挑战。大规模基础模型（LSFMs）的出现在人工智能领域引发了一波浪潮，使深度学习模型从单任务、单模态、有限数据模式转变为涵盖多种任务、多模态并在大量数据集上进行预训练的范式。尽管LSFMs已经展示出强大的泛化能力、自动高质量训练数据集生成能力以及在各个领域的卓越性能，但LSFMs在智能制造领域的应用仍处于起步阶段。对这个主题的系统性概述尚缺乏，尤其是关于深度学习的哪些挑战可以通过LSFMs解决，以及如何系统地应对这些挑战。为了填补这一空白，本文系统地阐述了LSFMs当前的状况及其在智能制造背景下的优势，并与当前深度学习模型在各种智能制造应用中面临的挑战进行了全面比较。我们还概述了利用LSFMs解决这些挑战的路线图。最后，通过在真实世界智能制造场景中应用LSFMs的案例研究来说明LSFMs如何帮助行业提高效率。

制造业是国家经济的支柱之一，几个国家已经宣布了战略路线图，以促进新制造技术的应用，确保在这一领域的领导地位，例如德国的工业4.0 [1]、美国的智能制造领导联盟(SMLC) [2] 和中国制造2025 [3]。在过去的几十年里，通过部署新技术如传感器、物联网(loT)、机器人、数字孪生以及网络物理系统(CPSs) [4]–[15]，制造业变得更加智能，其中在制造过程的所有阶段持续生成并捕获前所未有的数据量。因此，高效的数据处理算法被极为渴求，以实现有效的故障诊断和预测性维护、质量控制、人类操作、流程优化以及智能制造所需的许多其他智能决策 [16]–[20]。统计数据显示，82% 使用智能制造技术的工业活动获得了效率和性能的提升 [16], [21]。智能制造的这些改进主要归功于各种机器学习算法的实施，这些算法随着制造数据的规模和复杂性的增加，其中许多先进的数据驱动方法已被研究和采用，以实现大规模数据处理能力，高效率和强大的决策制定能力，这两者通常是复杂制造活动所共同需要的。表1列出了这一领域的一些综述文章 [22]–[88]。传统机器学习方法，如支持向量机、K最近邻、朴素贝叶斯等，在一定程度上可以提高制造业的决策性能 [89]–[91]、生产线调度 [92], [93]、机器维护安排 [94], [95]、故障预测 [96]–[98]、质量评估 [99], [100] 和缺陷检测 [101], [102]。然而，它们过分依赖于手工特征工程以用领域知识表示数据，并且缺乏处理大规模数据中高度非线性关系的能力，限制了它们在智能制造中的应用 [103], [104]。深度学习作为一种先进的机器学习方法，能够通过采用多层神经网络架构，从高维非线性原始数据中自动提取特征和识别模式，使其更适应智能制造的复杂数据处理。在过去的十年里，深度学习方法是智能制造各个领域中主流的数据驱动方法，例如健康管理(PHM) [105]–[125]、质量控制 [126]–[142]、机器人 [143]–[149] 和人类活动识别 [66], [150]–[165]。尽管深度学习展示了高层次的特征学习抽象表达能力，具有出色的端到端决策模型能力并且显著减少了对人力的需求，从而大大推动了智能制造的发展，但在应用时仍面临重大困难 [45], [166]–[169]。首先，为特定模式和目标定制的小型深度学习模型的性能受限。这些模型存在泛化能力有限、可解释性差、易受攻击等问题，无法满足企业在智能生产和管理方面的需求，尤其是在数据多样的复杂任务中 [170]–[175]。此外，它们只能以分散、松散耦合的方式处理个别任务 [176]–[178]。其次，数据规模增长和数据集建立成本的要求限制了深度学习模型的性能。作为一种数据驱动的方法，深度学习模型依赖于拟合输入和输出之间的关系，其中训练数据集的数量和质量起着关键作用 [166]。尽管新技术如传感器和物联网使得高效收集大量数据成为可能 [179]–[184]，但这些数据通常分布不均、噪声多、缺乏标签，并包含大量非结构化数据。因此，这些数据不足以训练出好的深度学习模型。与此同时，深度学习模型处理大规模数据的效率不足。最近出现的大规模基础模型 [185]–[189] 通常通过广泛的自监着学习进行训练，并展示了强大的泛化能力、卓越的零样本性能和令人印象深刻的多模态融合能力，这在自然语言处理、计算机视觉等多种下游任务中取得的成功中得到了证明 [190]–[197]。尽管利用LSFMs应对智能制造中的挑战的努力才刚刚开始，但已有一些进展被尝试。[198], [199] 讨论了LSFMs在工业制造中的潜在应用，但仅限于特定的工业任务或特定LSFM。Ji等人 [200] 提出了对比视觉基础模型在隐蔽场景中的性能与最新深度学习模型的定量比较。Ogundare等人 [201] 提出了一项关于大型语言模型（LLMs）生成的工业自动化和控制系统的弹性和效率的研究。

尽管LSFMs在智能制造中展现出巨大潜力，其中强大的泛化能力、自动高质量训练数据集生成和卓越性能非常受欢迎，但这一领域的研究仍处于早期阶段，且关于智能制造应用中LSFMs的系统性综述尚未出现。本文提出了在智能制造中使用LSFMs的技术路线图，特别是在深度学习方法遇到重大障碍的地方。我们的工作旨在提供指导方向和讨论，帮助理解LSFMs如何能够惠及智能制造。

本文的其余部分组织如下。第二部分描述了深度学习模型在智能制造中遇到的挑战。在第三部分，我们首先提供了LSFMs当前进展的简要概述，随后我们讨论了LSFMs在智能制造中的技术优势，这些优势解决了深度学习所面临的挑战。第四部分阐述了在智能制造中应用LSFMs的路线图。最后，在第五部分，我们通过几个我们在实际制造场景中应用的案例来说明LSFMs如何在智能制造中取得进展。

大规模基础模型(LSFMs)的进展

基础模型旨在通过大规模数据集进行训练，即拥有数十亿至数千亿的参数，并在近期首次被命名 [185]。这些模型在预训练后可以固定大部分参数，并通过微调适应广泛的下游应用。事实上，大规模基础模型（LSFMs）在自然语言处理 [292]、计算机视觉 [293] 等领域取得了革命性的进展。

如图2所示，大型语言模型（LLMs）领域见证了众多令人印象深刻的进展 [294]–[297]。其中，GPT系列 [292], [294], [298], [299] 无疑是LLMs中最著名和最具标杆性的。GPT系列的最新版本，GPT-4 [292]，支持多模态输入，接受图像和文本，并生成文本输出。它是一个基于Transformer的模型，预训练用于预测文档中的下一个词。后续的微调过程可以增强其事实准确性，并确保其性能与期望的行为一致。在各种专业和学术基准测试中，GPT-4展示了与人类水平相当的性能，尤其是在人机交互、教育、医疗和法律等领域。LlaMA模型 [300] 目前是最受欢迎的开源LLM，提供四种规模：7B、13B、30B和65B。由于LlaMA是在英文语料库上进行预训练的，因此在使用时通常需要用目标语言的指令或数据进行微调，从而产生了一系列扩展模型 [301]–[303]，构成了LlaMA家族。

LSFMs在智能制造应用中的路线图

A. 提升泛化能力的路线图

预训练与微调相结合：当模型参数和大小超过一定阈值时，这些模型不仅展示了突现的性能提升，还获得了小规模模型所缺乏的功能，如逻辑推理能力 [294], [340]。在智能制造中，LSFMs结合预训练和微调的方式提供了多种可能性，用以解决传统小规模深度学习方法所遇到的问题。LSFMs在多样化的通用数据集上进行预训练，减少了对有限的、特定任务的数据集的依赖，因此尽管模型的参数量很大，也减轻了过拟合的风险。Kahatapitiya等人 [341]，考虑到视频-文本匹配数据的有限可用性，应用了一个预训练的图像-文本模型到视频领域，用于视频-文本匹配，而不是从头开始训练。此外，特定的微调策略可以增强模型的泛化能力，以进一步避免在小样本学习中微调过程中可能出现的模型过拟合。Song等人 [342] 提出了一种称为特征判别对齐（FD Align）的微调方法，通过保持伪特征的一致性来增强模型泛化能力，在分布内（ID）和分布外（OOD）任务中展示了有效性。

通过LSFMs构建结构化数据：LSFMs可用于提取和理解复杂的非结构化数据，并将其编码为可管理的结构化格式，例如，处理工单中的非结构化文本数据 [343]。深度生成模型（DGM）和诸如VIT [304]之类的模型旨在从非结构化数据中发现复杂的高维概率分布，以提取更抽象、更复杂的特征。Oliveira等人 [344] 概述了四种类型的DGM：基于能量的模型（EBM）、生成对抗网络（GAN）、变分自编码器（VAE）和自回归模型，以及它们如何应用于供应链管理（SCM）优化。

通过提示嵌入知识：一旦专家知识被编码，它可以与输入文本或图像特征融合，从而提高输出的准确性 [345]。许多LSMFs，如ChatGPT和SAM，固有地包含了手动提示编码，允许通过提示融合领域知识，而无需修改模型。例如，对于抽象的人类行为活动，模型可能难以一次性描述它们。因此，可以引导它首先生成与对象相关的活动描述，强调区分相似活动的关键对象。随后，它可以识别人类活动的活动类别并帮助解释上下文 [346]。此外，LSFMs甚至可以在训练过程中通过收集案例研究来收集相关的领域知识 [347]。

使用多模态LSFMs：智能制造通常产生多种形式的数据，包括自由文本维护日志、图像、音频和视频记录。这些数据的固有多样性对深度学习模型中的单一模态构成了巨大的挑战。诸如Visual-GPT [348] 和ImageBind [318] 之类的LSFMs已成为可行的解决方案。这些模型擅长于同时编码一系列数据，包括图像、文本、音频、深度、热能、IMU数据和时间序列信号数据 [349], [350]。这种扩展的能力不仅可以丰富智能制造中捕获的数据范围，还可以赋予LSFMs独特的功能，如跨模态检索、通过算术运算进行模态融合以及跨模态检测和生成。利用这些广泛的LSFMs有助于精确处理非结构化数据和综合多样化的结构化数据来源。在多种干扰特征的复杂工业环境中，LSFMs与传统单模态深度学习方法相比展示了更强的鲁棒性。

正则化和集成学习：LSFMs可以通过正则化和集成学习等方法解决过拟合问题。正则化可以限制模型的复杂性，修剪可以移除不必要的节点和连接，集成学习可以结合多个模型的预测结果以提高模型的泛化能力。尽管许多LSFMs，如GPT-3和PaLM在训练期间没有使用dropout [351]，但它仍对LSFMs有重要影响。例如，通过在训练过程中使用dropout，Galactica [296] 实现了一个1200亿参数的模型而没有过拟合。此外，为了缓解由于dropout导致的LSFMs训练速度降低，逐渐在训练过程中引入dropout可以产生与始终使用dropout相当的性能 [352]。

持续学习/终身学习：大多数当前在智能制造中的深度学习模型假设正常模式保持不变。然而，制造环境中的变化频繁发生。持续学习/终身学习涉及在保留以前学到的知识的同时获取和识别新知识。LSFMs具有通过收集过去任务结果作为经验来进行持续学习的强大能力。通过这个过程，LSFMs利用以前的知识不断提升自己 [347], [353]。LSFMs的持续学习特性使它们能够在实际生产过程中不断积累新知识，以适应复杂实际环境中的潜在变化 [347], [353]。这一能力有助于防止在固定模式上训练的模型出现过拟合。对这个过程施加特定约束可以进一步提高模型的性能和稳定性 [354]。

LSFM辅助的知识图谱构建：知识图谱是通过理解图结构获取知识的表达形式 [355]。然而，知识图谱工程（KGE）需要对图结构、逻辑和知识内容有深入理解，因此工作量巨大。深度学习方法的上下文理解和表示能力不尽人意，特别是在遇到全新或罕见的知识时。利用LLMs的知识理解能力和高级推理技能，可以自动生成专业领域的知识图谱 [356]，并预计通过将知识图谱与预训练的语言模型相结合，增强模型对特定领域知识的理解 [357]。

B. 自动高质量训练数据集生成的路线图

生成更高质量的数据集：生成模型如扩散模型可以较传统数据合成方法更有效地促进高质量合成数据的生成 [315]。使用文本到图像的扩散模型可以生成真实的图像变化以进行数据增强。与简单的增强方法如拼接、旋转、翻转不同，基于扩散模型的增强可以改变更高层次的语义属性，例如卡车上的油漆工作 [358]。为了解决训练扩散模型本身需要大量数据的问题，Wang及其同事将二维扩散模型转换为三维，使用链式规则，使得生成三维对象数据成为可能 [359]。此外，转换可以用于加权平均或评分多个预测模型的结果，并学习和模拟历史数据以获得更强大的预测结果。在第五部分，我们展示了如何使用LSFMs在工业生产线上实现低成本、自动化的动作识别数据注释。

提高数据质量：高质量数据对模型训练和智能制造中的决策至关重要，原始数据通常存在缺失值、异常值和重复值等问题。LSFMs可用于自动去除杂质数据，减少预测错误，提高数据质量。例如，BLIP [309] 依赖于中间训练模型在训练期间自动从数据集中移除匹配不良的图像-文本对，并改进某些图像的文本注释。Lin等人 [360] 提出了一种基于条件生成对抗网络（CGANs）的动态供应链成员选择算法。为确保分类性能不会降低，链上的成员分类方法能成功降低分类过程中的数据维度和复杂性。

零样本和少样本：工业缺陷检测的一个主要挑战是缺乏异常样本，工业产品的异常情况通常多样且不可预测。LSFM可以有效地实现零样本检测或少样本检测。Gu等人 [324] 探索了使用大型视觉-语言模型（LVLMs）解决工业异常检测问题，并提出了一种基于LVLM的工业异常检测新方法，AnomalyGPT。在MVTec异常检测数据集上，AnomalyGPT仅使用一个正常样本就能实现86.1%的准确率，94.1%的图像级AUC和95.3%的像素级AUC。这种应用方法不再需要收集异常样本或为每个任务创建数据集来训练特定模型，只需要少量数据的微调就能实现良好的检测结果。例如，在预测性维护中，Leite等人 [361] 使用LLMs对可信度信号进行分类，这些信号通常用于评估预测内容的真实性。基于LLM的方法在两个虚假信息数据集上的表现优于最先进的分类器，无需任何真实标签。

预训练与微调相结合：尽管一些初步工作为智能制造场景提供了数据集，如HAR [362]–[364]、质量控制 [365]–[367] 和PHM [368], [369]，但这些数据集的特点是规模小、覆盖范围狭窄、场景单一、操作条件简单、数据分布不均。LSFMs在广泛数据上进行预训练，可以识别真实世界实体的一般特征，为数据有限环境中实现精准灵活的智能制造提供有效解决方案 [294]。在大规模数据上训练的预训练模型随后在小规模数据上进行微调，以提高模型的准确性和泛化能力。例如，Sun等人 [370] 在医学文本中使用了BERT，并仅使用小数据集进行微调就取得了良好的性能。同样，Radford等人 [299] 展示了GPT在不同任务中的迁移学习能力。

C. 卓越性能的路线图

通过提示改进：通常情况下，训练完成后，深度学习模型不再接受“指导”，而是基于训练的参数进行推理。然而，LSFMs具有卓越的数据整合能力，可以通过利用各种形式的提示来提高输出性能。Ji等人 [321] 发现提示的质量对LSFMs的准确性有重要影响。为了解决SAM在小尺度和不规则边界上的次优分割性能，可以使用多个提示从分布中导出更精确的分割结果 [371]。特别是，Deng等人 [372] 使用先前分布参数的蒙特卡罗模拟来估计SAM的预测分布。这种方法允许通过考虑单个图像的多个预测来估计任意不确定性。另外，也可以使用网络来获取增强的线索，通过输入原始线索生成增强线索以产生遮罩，然后输出增强线索。通过将这些线索合并为新的提示，可以提高分割性能 [373]。还应该谨慎处理解耦遮罩生成和提示嵌入，以防止误导性提示对遮罩生成产生不利影响 [370]。

增强输入数据：在LSFMs中，“基础”一词表明LSFMs可以轻松地作为与其他算法结合的基础。这确保了即使LSFMs单独使用时表现不佳，通过与其他算法结合仍能保证良好的性能。例如，视觉语言模型（VLM）表现出对各种损坏的强大鲁棒性，但某些损坏如模糊相关的损坏会导致模型性能下降 [374]。此外，SAM在隐蔽和伪装场景中的性能被证明是不足的 [200], [375]。幸运的是，已有大量关于去模糊 [376]–[378] 和检测隐蔽和伪装场景中目标的技术研究 [379], [380]。作为LSFMs的特点和优势之一，VLM可以轻松地与其他模型结合，使用预处理数据作为输入或将其他对象检测器的检测框作为提示。

跨模态预训练：LSMFs克服了深度学习中单一任务和单一模态的限制，能够在跨模态预训练后通过统一模型实现多任务和多模态应用 [381]。通过在训练中利用对比损失建立图像和文本特征之间的关联，可以实现开放集对象识别和检测 [310]–[312]。这可以防止任务受到训练中预定义类别的限制。为了达到令人满意的预训练性能，成功依赖于跨模态数据集的规模 [381], [382] 和模型利用弱对齐数据的能力 [383]。李等人 [384] 使用预训练模型进行工业系统中视频的弱监督标签分类，以衡量视频中的语义相似性。通过加入增强的跨模态Transformer模块，他们最大限度地利用了视频和纹理特征之间的交互信息。

预训练结合微调：与深度学习在数据有限和流程复杂的情况下所达到的不令人满意的准确度相比，大规模预训练不仅赋予LSFMs强大的泛化能力，还赋予了它们更高准确度的潜力 [294], [340]。虽然直接使用预训练的LSFMs可能并不总是优于特别设计的深度神经网络 [321]，但用特定智能制造领域的数据集数据有效地微调它们可以提高它们的准确度 [385], [386]，潜在地超越现有的深度学习模型。像P-Tuning [387]、Lora [388]、QLora [389] 等技术促进了LSFMs的微调过程。

此外，在集成数据集上训练深度学习模型增加了数据泄露的隐私风险。使用预训练的LSFMs作为解决方案可以提高数据安全性，减少从零开始训练模型所需的大量数据带来的隐私风险。这些预训练模型能够在最小化微调的情况下实现有效的结果，从而减少对敏感数据的暴露。在微调阶段，LSFM网络的有限部分需要调整，引入差分隐私技术。具体来说，Abadi等人 [390] 提出的技术在微调过程中得到了应用。这些措施可以保持微调LSFM过程中涉及数据的隐私，确保更安全的训练环境。

采用分布式学习：制造业中的数据不像自然语言和其他领域那样容易获得，因此采用分布式学习方法 [391] 对于在智能制造中使用的LSFMs在训练和安全方面可能都有益处，其中训练数据可以从不同的生产线、工厂甚至国家获得。分布式学习方法，如联邦学习，涉及每个方的本地数据处理，只有中间结果（如梯度）被聚合用于模型更新。这使得客户端（设备或组织）能够协作训练机器学习模型，而不暴露其数据，大大提高了数据使用效率 [392], [393]。与这些技术结合可以使LSFMs不仅在性能上超越传统方法，而且在处理敏感工业信息时提供更安全的数据处理框架。

使用LSFM自身的输出进行解释：由于其决策过程高度抽象和非直观，深度学习模型通常被认为是“黑箱”。LSFMs，特别是LLMs，在任务中展示了卓越的上下文理解能力，因此尝试使用LLMs来解释模型是潜在可行的。在Bubeck等人的一项研究中 [274]，发现LLMs在其输出中展现了强大的结果一致性，这意味着模型遵循了固定的“思考”模式。因此，向chat-GPT提出类似“请解释你预测背后的原因”的问题被证明是有效的，尤其是在合理的先前问题之后。这个想法也可以应用于基于编码器结构的模型 [394]，通过对重构输入特征进行偏差分析来解决AE的局限性，以获得解释 [395]。

使用LLM解释其他模型：LLMs具有强大的文本能力，可以利用从LLMs获得的知识来解释其他神经网络。为了实现这一点，LLMs被用来总结和评分待分析模型的输出 [396]。此外，LLMs可用于生成或匹配反事实，模拟或估计事件或行为中的不同选择，以更好地理解模型的预测结果 [397]。或者，将LLMs直接嵌入到模型训练中，可以实现高效推理的同时获得良好的可解释性 [398]。

可视化运行过程：从神经网络输出中提取中间特征图可以帮助理解模型关注的特征，即使这些特征图可能仍然高度抽象。通过使用其架构中的自注意机制和令牌链接，可视化注意力可以提供比特征图更直观的解释。注意力链接的强度直观上可以被认为是每个令牌对分类的贡献的指示器。可视化注意力有助于理解模型感兴趣的部分 [399]。考虑到LSFMs大多基于transformer结构，可视化注意力输出以提高LSFMs的可解释性是有前景的。

结论

LSFMs表现出强大的泛化能力、自动生成高质量训练数据集的能力和优越的性能，能够将人工智能从单一模态、单任务、有限数据训练的范式转变为多模态、多任务、海量数据预训练然后微调的模式，必将带来智能制造的新一波变革。针对将LSFMs应用于智能制造的研究尚处于起步阶段，缺乏系统的方向性指导的问题，总结了深度学习在智能制造中的进展与挑战，以及LSFMs在智能制造应用中的进展及其潜在优势。在此基础上，从通用性、数据性和性能等角度全面探讨了如何构建适用于智能制造领域的LSFM系统，并以美的集团生产线的实际应用为例，说明了LSFMs的应用如何帮助企业提高效率、降低成本。

成为VIP会员查看完整内容

102

相关内容