来源:中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室
随着“十四五”规划等国家政策的深化落地,人工智能(AI)发展迎来又一轮红利,特别是以ChatGPT为代表的生成AI产品预示着AI商业变现过程将进一步提速,AI工程化热度进一步提升。人工智能研发运营体系(MLOps)作为AI工程化重要组成部分,呈现出方法论逐渐成熟、落地应用持续推进的态势。
2023年3月16日,“AI工程化论坛暨MLOps实践指南发布会”在京举办。会上,中国信息通信研究院(简称”中国信通院“)发布《人工智能研发运营体系(MLOps)实践指南(2023年)》。
指南从组织如何布局和落地MLOps的角度出发,以模型的高质量、可持续交付作为核心逻辑,系统性梳理MLOps概念内涵、发展过程、落地挑战,为组织高效构建MLOps框架体系和关键能力提供方法论和实践案例的参考与借鉴,并研判MLOps未来发展趋势。
指南核心观点
**1. MLOps概念渐晰,为解决AI生产过程管理问题意义明显。**MLOps是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高AI模型生产质效,推动AI从满足基本需求的“能用”变为满足高效率、高性能的“好用”,有效化解模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。
**2. 国内外MLOps发展百花齐放,落地仍面临问题和挑战。**2015年至今,从业界意识到机器学习项目技术债给AI生产上线带来的潜在巨大影响伊始,MLOps前后经历了斟酌发酵、概念明确、落地应用三大阶段,且随着新工具不断涌现,在IT、金融、电信等行业得到了广泛应用和落地。但在这个渐进式发展过程中,MLOps落地面临着诸多挑战,包括组织落地驱动力不足、支撑工具选型难集成难、模型治理和可信道阻且长、环境间的交互难以平衡等。
**3. 围绕流水线的构建,MLOps框架体系逐步完善。**基于机器学习项目全生命周期,以CI/CD/CT/CM为核心,通过构建各条机器学习流水线,包含需求分析与开发、数据工程流水线、模型实验工程流水线、持续集成流水线、模型训练流水线、模型服务流水线、持续监控流水线,MLOps全生命周期闭环框架逐步完善。
**4. 渐进式建设关键能力,MLOps落地效应逐步形成。**通过数据处理、模型训练、构建继承、模型服务、运营监控、模型重训、实验管理和流水线管理等能力的建设,形成MLOps过程管理能力的全面把控。通过特征管理、模型管理和仓库管理等能力的建设,形成制品管理能力的提升。同时以模型安全作为AI生产过程中的关键保障之一,MLOps落地效应日益凸显。
随着国家新型基础设施建设发展战略(2020)、国家“十四五规划和 2035 年远景目标纲要”等系列政策的出台,人工智能(AI)发展迎来新一轮红利,科技革命和产业升级处于进行时。近年来,AI 工程化的研究热度持续提升,其目的是帮助组织在数智化转型过程中,更高效、大规模地利用 AI 创造业务价值。人工智能研发运营体系(MLOps)作为 AI 工程化重要组成部分,其核心思想是解决 AI 生产过程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的 AI 生产过程。 MLOps 的发展呈现出逐渐成熟的态势,近几年国内外 MLOps 落地应用正持续快速推进,特别是在 IT、银行、电信等行业取得明显效果。与此同时,MLOps 行业应用成熟度不足,使得组织在制度规范的建立、流程的打通、工具链的建设等诸多环节面临困难。因此本指南旨在成为组织落地 MLOps 并赋能业务的“口袋书”,围绕机器学习全生命周期,为模型的持续构建、持续交付、持续运营等过程提供参考,推进组织的 MLOps 落地进程,提高组织 AI 生产质效。 本指南由中国信通院云计算与大数据研究所、人工智能关键技术和应用评测工业和信息化部重点实验室联合发布。本指南站在组织如何布局和落地 MLOps 的视角,以模型的高质量、可持续交付作为核心逻辑,系统性梳理 MLOps 概念内涵、发展过程、落地挑战等现状,并基于 MLOps 的理论研究和实践案例分析组织如何构建 MLOps 框架体系和关键能力,最后总结和展望其发展趋势。由于 AI 产业的快速变革,MLOps 落地应用持续深入,工具市场不断迭代,我们对 MLOps 的认识还有待继续深化,本指南可能仍存在不足之处,欢迎大家批评指正。