专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?| Q推荐

2022 年 7 月 21 日 InfoQ

据 Flexera 的一份调研报告显示,大多数公司每年在云上的花费超过 100 万美元,多达三分之一的云计算资源没有被有效地使用或被浪费。可见,虽然按需弹性是云计算的优势,但如果资源规划、配置以及利用的方式不当,都会造成巨大的资源浪费。

企业到底如何实现“用好云”的目标?又该如何使资源效能发挥出最大的优势,带来成本结构的优化改善?7 月 21 日,百度世界 2022 在线上召开,大会主论坛以“云智一体赋能实体经济发展”为主题,介绍了百度在能源、工业以及智慧城市的深入实践。此外,围绕降本增效、云智一体等话题,百度副总裁侯震宇等嘉宾在百度世界的子栏目《AI 可见度》中,又进行了深入地解读。为了挖掘企业“用好云”的关键路径以及百度集团上云的实战经验,InfoQ 也有幸对百度集团副总裁侯震宇进行了一次独家专访。

1 从企业 IT 资源优化的关键路径说起

作为数字经济的强大底座,云计算不仅要保持高稳定、高性能,还要具备高性价比的特性。目前,我们看到云服务已经基本能够满足上述提到的因素,但与此同时,无论是互联网企业还是传统企业,大家依然有持续降本增效的需求。因此,当企业走过了“上云”和“用云”的初期阶段,“用好云”则成为了更进阶的问题。

企业“用好云”的关键路径究竟是什么?侯震宇在采访中提到:“企业要想真正用好云,需要重新思考业务战略目标、技术理念以及组织能力三方面因素,从而实现真正意义上的云原生。”

企业需要围绕业务战略明确“上云”“用云”的目标,判断如何选择更加高效的基础服务。通常来说,想清楚这一步是企业实现持续用好云的关键。其次,为了满足业务创新和持续发展的要求,企业还需要将 IT 技术架构进行改造和升级,具体可以分为以下三个方面:

第一,选择“用好云”的基础架构。企业需要意识到,云服务的核心优势不仅仅停留在虚拟化和弹性,其还具备多形态的算力、产品以及增值等能力。例如,如果常规业务能够接受多样的算力形态,使用弹性、竞价抢占、潮汐算力等特性,相比常驻资源,成本预计会降低 2/3 以上;而对于在容器 K8s 上的业务,如果开启混部等能力,CPU 资源利用率可以提升到 45% ,甚至更高;

第二,设计面向云的业务架构。这就要求企业的 IT 团队在设计业务架构时,让业务架构具备服务化、弹性伸缩、可迁移性、可观测性以及韧性等云原生架构特性,从而把“上云”“用云”的价值发挥到最大;

第三,面向云的组织建设也同样重要。企业需要把云、基础架构、业务架构、运维等团队有机地结合在一起,建立专门的资源运营团队负责把控和规划,建立专业的服务体系连接云和各个业务方,最终让公司和每个业务都取得目标收益。

当然,企业在上云的过程中势必会带来短期的额外成本,如人力投入、资金投入等等,但从长远的角度来看,上云也将带来研发效能和资源效能的最大化,企业需要用长期主义的思维进行决策,坚定上云的选择。

2 “一明一暗”两条线,百度的资源治理实践

一直以来,百度自身就是云原生技术的实践者。侯震宇在采访时透露,约在五年前,百度就开始建设面向未来的基础架构,推进业务容器上云。在整个实践的过程中,资源治理也成为了百度要解决的一个首要问题。在降本增效目标的驱动下,百度也启动了为期 3 年的云上战略,总结来说就是“一明一暗”两条线。

在明线上,开展产品 & 硬件云网融合,产品技术统一规划,全面覆盖研发环境、应用架构和基础设施:首先,通过百度智能云,在绿色低碳 IDC、AI 服务器、昆仑 XPU、太行DPU、高性能存储、网络等全栈云原生基础设施的加持下,实现了客户和百度集团业务的计算、存储等资源共池,资源灵活周转、调度和高效交付;面对超万台节点规模的大型业务单元需求,实现一周内全面交付。

其次,结合超大规模云原生混部调度、容量预测和智能弹性技术,在保障资源质量和安全隔离的基础上,让整体资源利用效率提升 45%+,单位 IT 成本下降超过三分之一,利用独特的潮汐算力技术,实现内外分时复用,让极致的绿色算力全面落地;

最后,打造了一站式云原生平台,结合云原生数据库、云原生实时数仓等技术,构建了全链条云原生生态。目前,百度超过 95% 的业务应用已经全面云原生化,所有核心业务都具备高弹性高可用和敏捷迭代的能力。

在暗线上,百度启动了大资源运营体系建设,围绕 IT 资源的生命周期,针对资源效能目标进行拆解、量化、分析,对集团经营管理侧、业务用云侧进行牵引指导,开展了诸如零基预算、需求报备、定价结算、韧性供应链等体系化产品建设,并分别从容量、质量、交付、成本多个维度进行度量评价,不仅推动了经营理念从 TCO 到 TVO 的变革,还实现了供给端 & 消费端理念和机制的转变。最终,变革后的预算管理机制,让内部各个业务线对资源的看待视角发生了转变,基础设施资源和云化资源管理拉通以后,每年还能持续为百度贡献约 10 亿元的成本优化。

不难发现,百度资源治理的实践其实与 FinOps 理念是不谋而合的,不仅帮助企业通过财务的视角,思考、规划应该如何使用这朵云,也让企业在享受云原生化技术红利的同时,又实现了 IT 资源降本增效的目标。

3 全栈基础设施云原生化,提供强大的后坐力

目前,百度已经将内部孵化出的技术能力挪到了云上,以期为更多用户提供强大的基础设施。要知道,百度的业务是非常复杂的,各种类型的应用,各种各样的数据,都依赖于百度强大的基础架构。说到这里,如果你依旧不能清晰地感知到百度业务的复杂性,或许可以通过这组数据进行参考:百度总容量已经达到数十 EB,每天新增的数据量就有数十 P,每天处理的数据超过百 P,峰值处理每秒达 10TB。

而百度智能云之所以具备稳定、高性能等特性,自然也离不开底层技术的支持。一直以来,百度智能云都在关注整个技术发展领域,在 AI 成为技术潮流的背景下,百度智能云实现了全栈自研,建设了最适合跑 AI 的基础设施。

随着数字经济时代全面开启,数据中心的建设规模不断扩大,数据中心的绿色低碳发展也成为各方关注的焦点。基于此,百度在低碳计算方面也投入了很大精力,自建 PUE 领先的数据中心,使用“市电 +HVDC Offline”供电方案,应用“冰川”相变冷却技术,采用基于百度“飞桨”智能控制系统实时监测数据并调优,能效最高单体数据中心年均 PUE 低至 1.08。

此外,为了打造出最适合跑 AI 的基础设施,百度还需要在整个计算体系层面上提高效率,正如 Intel 中国区物联网事业部首席技术官张宇在《AI 可见度》分论坛提到的那样:“面对不断演进的数字化需求,英特尔将继续深化与包括百度在内的生态伙伴的合作,以“绿色、低碳”为出发点,将更多优秀的技术和解决方案推向市场,为个人、产业和社会创造更多的便利和价值。”

为此,百度不仅和 Intel 联合打造了百度定制的 Intel CPU,还自研了多类芯片、设计了为 AI 场景优化的服务器,如百度自研的昆仑芯片、太行DPU以及超级 AI 计算机 X-MAN 等。与此同时,随着现在 CPU 的处理能力越来越强,各个计算节点之间的数据交换也会变得更加密集,需要有非常好的低延时网络服务来支撑,所以,在软件层面上,百度智能云定义了自己的网络协议栈,建设了超低时延网络。

“从最底层的低碳绿色数据中心,到我们自研的芯片,再到多芯片的适配,最后到上层集群和软件,我们希望能够打造出全国面向 AI 环境最领先的 AI 超算集群。”侯震宇在《AI 可见度》分论坛中总结道。

作为最适合跑 AI 的基础设施,百度智能云提供了丰富的 GPU 容器虚拟化、推理 / 训练加速、数据 / 镜像加速等能力,全面使用这些能力,会让 GPU 利用率达到 80% 甚至更高,作业效率更能够有 3-5 倍的提升。

4 写在最后

“云服务,原来只是一个简单、算得过账的工具,如今已经演变成一个能给企业提供生命力的新系统,甚至能够成为企业可持续发展的重要组成部分。”侯震宇说道。

可以预见的是,在 AI 技术的强烈冲击下,传统的通用型算力架构已经被时代所抛弃,企业更需要的是面向智能的计算能力,以提供更高效、稳定、高性价比的计算平台。目前,百度智能云已经将 AI 的能力以及软件层面的能力,真正地注入到了云底座,基于百度智能云提供的“云智一体”服务,可以帮助企业在节省芯片、算法等硬性投入的同时,降低对专业人才的依赖。

回归到开篇的提问:企业到底如何才能实现“用好云”的目标,相信可以在百度智能云中找到捷径和答案。

内容推荐

《中国卓越技术团队访谈录》(2022 年第二季),本期精选了微软 Edge、蚂蚁可信原生、明源云、文因互联、Babylon.js 等技术团队在技术落地、团队建设方面的实践经验及心得体会。本期电子书已经在 InfoQ 网站上线,大家可以扫描下图二维码下载,查看更多精彩内容。

《中国卓越技术团队访谈录》是 InfoQ 打造的重磅内容产品,以各个国内优秀企业的 IT 技术团队为线索策划系列采访,希望向外界传递杰出技术团队的做事方法 / 技术实践,让开发者了解他们的知识积累、技术演进、产品锤炼与团队文化等,并从中获得有价值的见解。

访谈录现开放长期报名通道,如果你身处传统企业经历了数字化转型变革,或者正在互联网公司进行创新技术的研发,并希望 InfoQ 可以关注和采访你所在的技术团队,可以添加微信:caifangfang842852,请注明来意及公司名称。

登录查看更多
0

相关内容

华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
46+阅读 · 2022年8月20日
百度《城市数字化转型》白皮书,78页pdf
专知会员服务
50+阅读 · 2022年8月19日
百度城市数字化转型白皮书
专知会员服务
37+阅读 · 2022年8月18日
企业数据治理痛点与阿里巴巴数据治理方案
专知会员服务
44+阅读 · 2022年7月4日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
31+阅读 · 2022年3月23日
客服中心智能化技术和应用研究报告(2021年),57页pdf
专知会员服务
47+阅读 · 2022年2月6日
腾讯:2022年十大数字科技应用趋势
专知会员服务
80+阅读 · 2022年1月13日
专知会员服务
75+阅读 · 2020年12月19日
深入理解百度在离线混部技术
InfoQ
0+阅读 · 2022年2月27日
湖仓一体会成为企业的必选项吗?| Q推荐
一文看懂业界在离线混部技术
InfoQ
0+阅读 · 2022年1月18日
【数字化转型】如何加速实现企业的数字化转型?
产业智能官
0+阅读 · 2021年2月3日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年9月15日
Arxiv
19+阅读 · 2022年7月29日
Arxiv
28+阅读 · 2021年9月26日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
46+阅读 · 2022年8月20日
百度《城市数字化转型》白皮书,78页pdf
专知会员服务
50+阅读 · 2022年8月19日
百度城市数字化转型白皮书
专知会员服务
37+阅读 · 2022年8月18日
企业数据治理痛点与阿里巴巴数据治理方案
专知会员服务
44+阅读 · 2022年7月4日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
31+阅读 · 2022年3月23日
客服中心智能化技术和应用研究报告(2021年),57页pdf
专知会员服务
47+阅读 · 2022年2月6日
腾讯:2022年十大数字科技应用趋势
专知会员服务
80+阅读 · 2022年1月13日
专知会员服务
75+阅读 · 2020年12月19日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员