如何采用最适合团队的Ops文化,看看脸书、字节、深信服、三七互娱 | QCon

2022 年 7 月 13 日 InfoQ

作者 | Srini (شرینی) Vadlamani
各种 Ops 文化概念激增,izOps、MarketingOps、DevOps、AIOps、MLOps、DataOps……对于一个部门或团队来说,拥有正确的技能组合以及采用合适的 Ops 文化日渐重要。

MLOps 和 AIOps 是两个听起来比较相似的术语,用于指代当今行业内截然不同的两个学科。自从几年前引入这些术语以来,Google Zeitgeist 对它们的关注激增,正如谷歌趋势的图表所示。

随着时间的推移,Google Zeitgeist 对 MLOps 和 AIOps 的关注度趋势

然而,除了少数从事这些领域项目的从业者之外,对于大多数人或对该领域有兴趣的人来说,MLOps 和 AIOps 的概念及其各自优势,都显得模棱两可,甚至认为没有差别。根据我的经验,这有两个原因。

首先,MLOps 和 AIOps 都隐含了对 DevOps 更广泛理解实践的引用。这让人不禁好奇——MLOps 和 AIOps 与 DevOps 有关吗?它们是从它派生出来的吗?如果是这样,它们又有何不同?

第二点便是关于 ML 与 AI 的区别,因为它们经常被互换使用。那它们是否一样?是否具有连续性?如何是,两者的终点和起点又分别在哪里?

我们必须先回答这些问题才能更好地理解 MLOps 和 AIOps,记住这些问题,我们将在本文的最后进行回复。

同样重要的是,我们要知道目前这两种学科相对来说还是处于婴儿期。术语 MLOps 和 AIOps 的出现也仅有 6-7 年,相对于其语义、应用程序和好处的可理解性而言,这意味着它们的炒作 / 流行因素目前很高。这种情况可能会持续一段时间,直到技术成熟,用例变得更加普遍和广泛理解。

O'Reilly 在《2021 年企业人工智能应用报告》中使用这个引人注目的饼状图说明了这一点,该饼图显示,只有四分之一的受访者表示他们已经成熟部署了人工智能技术。


ML/AI 技术的成熟度(来源:O'Reilly)

据报道,该技术成熟采用的主要障碍是缺乏技术人员、数据质量存在问题、难以识别相关业务用例、缺乏公司文化支撑以及技术基础设施问题。该报告还发现,目前用于部署、监控、版本控制和跟踪模型和训练数据的工具之间明显缺乏标准化。

考虑到这些挑战,今天非该领域从业者在关于 MLOps 和 AIOps 技术、工具集和实践的可理解性上存在障碍也就不足为奇了。

在这篇文章中,我将阐明 MLOps 和 AIOps 的各自含义,它们旨在解决哪些问题,以及对于希望将其采用到其产品和服务构建策略中的团队来说,存在哪些工具。

在此之前,我们必须快速了解一下 DevOps 的概念,根据它的含义和解决的问题来构建上下文。这将有助于我们更好地理解 MLOps 和 AIOps 的基本原理,并明确它们之间的区别。

DevOps

DevOps 在 2007 年左右开始成为主流,以应对一个常见的组织问题,该问题影响了产品团队快速交付软件的能力。虽然遵循敏捷方法,但发布软件版本并将其部署到生产环境中,仍需要数周甚至数月的时间。

原因在于,开发团队和运营团队,各自为营。他们向组织内的不同执行领导汇报工作,彼此独立工作,有时甚至在一栋大楼的不同楼层或不同的大楼里工作。

DevOps 则是一种让开发人员和运营团队在软件开发生命周期(SDLC)的每个阶段共同协作的方式,并共享共同的目标和 KPI,这样使用敏捷可以更频繁地交付高质量的软件。

DevOps 的核心是三件事:

  • 多学科技能:DevOps 团队共同具备编写、测试、部署、监控和管理产品堆栈组件的能力,包括核心代码、持久性存储、数据库以及正在使用的任何第三方库和服务。在此过程中,消除孤岛。

  • 工具:工具帮助并加速软件版本控制、自动化和监视,以便软件能够以连续的方式开发和部署。这称为持续集成和持续部署(CICD)。

  • 流程:DevOps 团队遵循敏捷方法,将路线图项目分解为较小的里程碑和任务。他们使用长篇故事和故事作为冲刺计划的一部分,将工作分配给团队成员。开发和运维之间的紧密联系确保了每个人在即将发布的版本方面都处于同一页面上。这样避免了意外,并加快了高质量产品和服务的交付速度。

DevOps 生命周期有六个阶段,此处使用众所周知的 Infinity Loop 进行演示。

DevOps Lifecycle Infinity Loop(来源:Atlassian)

在此上下文中,让我们深入了解 MLOps。

MLOps

MLOps 在 2015 年左右开始崭露头角,它承诺解决机器学习管道端到端交付的关键操作问题,类似于 DevOps 在近十年前解决的问题。

你一定想知道 - 机器学习管道的这些问题具体是什么?为了让它更具体,先看一下典型的 ML 管道(来源:Gartner)是什么样的,

典型的 ML Pipeline(来源:Gartner)

要操作这一流程,必须具备三种不同的技能。首先,数据管道本身是数据来源、清理和转换的地方,数据归数据工程师所有。然后是对训练数据集的管理,接着是模型的创建和验证,这些都属于数据科学家。最后,部署、监视和持续维护属于操作部门。

因此,我们有三个具有专业技能的团队,他们需要相互协调,以端到端的方式拥有和运营整个管道。如果这些团队在孤岛后面独立运作,并且无法使用敏捷实践进行协作,则会导致整个产品的交付延迟和质量问题。

回想一下,这些问题与 DevOps 要解决的问题类似,当拥有专业技能的团队但是团队之间没有紧密协作时,就会出现这些问题。所以在这方面,你可以把 MLOps 看作是 DevOps 原则在机器学习管道中的应用。DevOps 是一个由开发人员和 IT/ 运维人员组成的多学科团队,而 MLOps 则加入了数据工程师和数据科学家,消除了他们之间的隔阂。

MLOps 生命周期有九个阶段,此处使用 DevOps Infinity 循环的修改版本进行演示。

MLOps 生命周期无限循环(来源:Neal Analytics)

AIOps

术语 AIOpsIT 运营的人工智能是由 Gartner 在 2016 年创造的,但与 MLOps 不同,它几乎与 DevOps 没有任何关系! 相反,它指的是使用智能算法解决已知的 IT 问题,并自动化重复的工作。

在我们深入探讨 AIOps 之前,这是重新审视并回答我们在文章开头提出的两个问题的最佳时机。这将使接下来的内容更易理解。

问题 1:MLOps 和 AIOps 是否与 DevOps 相关?如果是这样,如何?

  • 是的,MLOps 与 DevOps 相关,因为它将 DevOps 的多学科和敏捷原则引入了 ML 管道。MLOps 使数据工程、数据科学和运营团队能够更高效地管理这些管道。

  • 不,AIOps 与 DevOps 无关,AIOps 指的是使用智能算法解决已知的 IT 问题,并自动化重复的工作。AIOps 使 IT 团队更加高效。

问题 2:由于 ML 和 AI 倾向于互换使用,那么它们在 MLOps 和 AIOps 这两个词中的含义是什么?

  • 在 MLOps 上下文中,ML 指的是完整的机器学习管道,包括数据源和清理、模型创建和验证以及部署和监控。

  • 在 AIOps 中,AI / ML 指的是用于异常检测、根本原因分析和帮助台自动化的技术和算法,例如决策树、随机森林等。

随着上述两个基本问题的解决,让我们继续关注 AIOps。

AIOps 的目标是什么? 可以使用 AIOps 自动化的常见 / 重复性 IT 任务有哪些例子?

Gartner 使用以下框架来定义 AIOps 的适用性和优势。

AIOps Framework(来源:Gartner)

正如我们总结的那样,AIOps 的核心是将机器学习应用于大数据,以实现以下业务成果:

  • 监控:从安全性、可用性、性能或客户体验角度检测异常行为,以便主动响应潜在问题。

  • 服务台:自动执行票务任务,使用智能自动聊天代理解决客户问题,或从知识库中回答问题,以便快速有效地解决帮助台问题。

  • 自动化:AI 驱动的根本原因分析(例如,确定不兼容的库版本作为笔记本电脑出现故障的原因),或预测性分析,以便在潜在的流量峰值时发出警报,快速做出基础架构设施调整决策。

如果你所在的公司不同开发团队之间的合作还不够互通高效,那么不妨来关注下业界不同行业 XOps 的最新实践进展。将于 7 月 31 日 -8 月 1 日举办的 QCon 全球软件开发大会(广州站)上,组委会策划了【XOps】专题,特别邀请了来自 Meta(Facebook)、字节跳动、深信服、三七互娱、虎牙直播等国内外不同业务方向的技术专家,希望给你的团队答疑解惑。

QCon 全球软件开发大会广州站日程已上线官网,50+ 技术实践案例首次对外公开分享,点击底部【阅读原文】一览专题详细演讲提纲。门票限时优惠即将结束,前沿案例分享不可错过。感兴趣的同学联系票务经理报名:15600537884(同微信)

原文地址

https://www.dragonsegg.xyz/mlops-vs-aiops-whats-the-difference/

登录查看更多
0

相关内容

【Manning新书】云计算安全指南:以AWS为例,311页pdf
专知会员服务
38+阅读 · 2022年9月11日
华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
45+阅读 · 2022年8月20日
实时数据湖在字节跳动的实践
专知会员服务
29+阅读 · 2022年5月28日
【Manning新书】高级算法与数据结构,769页pdf
专知会员服务
185+阅读 · 2021年11月12日
专知会员服务
87+阅读 · 2021年6月17日
756页美国国家安全AI战略报告
专知会员服务
173+阅读 · 2021年3月25日
【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
66+阅读 · 2020年9月19日
区块链如何支撑 Web 3.0|QCon
InfoQ
0+阅读 · 2022年6月27日
2022 年值得关注的 DevOps 趋势和最佳实践
InfoQ
0+阅读 · 2022年4月28日
InfoQ 2022 年趋势报告:架构与设计篇
InfoQ
0+阅读 · 2022年4月18日
作为云原生 iPaaS 集成中间件的 Apache Kafka
InfoQ 最新 Java 发展趋势报告
InfoQ
0+阅读 · 2022年2月7日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年9月14日
Arxiv
12+阅读 · 2022年1月26日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【Manning新书】云计算安全指南:以AWS为例,311页pdf
专知会员服务
38+阅读 · 2022年9月11日
华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
45+阅读 · 2022年8月20日
实时数据湖在字节跳动的实践
专知会员服务
29+阅读 · 2022年5月28日
【Manning新书】高级算法与数据结构,769页pdf
专知会员服务
185+阅读 · 2021年11月12日
专知会员服务
87+阅读 · 2021年6月17日
756页美国国家安全AI战略报告
专知会员服务
173+阅读 · 2021年3月25日
【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
66+阅读 · 2020年9月19日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员