百度百舸2.0升级发布：产业智能化升级需要怎样的基础设施？| Q推荐

会员服务 ·

百度百舸2.0升级发布：产业智能化升级需要怎样的基础设施？| Q推荐

2022 年 9 月 13 日 InfoQ

来源 | 经授权转载自百度智能云技术站公众号

本文整理自 2022 智能经济高峰论坛·智能技术专题论坛的演讲

当今企业面临数字化转型和智能化升级的挑战，作为承载了庞大算力的云基础设施，成为企业打破这种挑战的重要支撑。

过去所说的算力，一般都是以 CPU 为主的传统算力。经过数十年发展，已经形成了庞大的市场规模。

随着产业智能化升级的深化，大家再提算力的时候，注意力就会更多的放到以 GPU 等为主的智能算力上来。

在过去几年，智能算力高速增长，已经快占据到算力总量的一半，和传统算力平分秋色。

这给产业智能化提供了充足的算力支持。比如自动驾驶、生物医药、行业大模型、智算中心等行业和领域，走在了智能化升级的前沿。这些行业的快速发展，也将反过来拉动了智能算力规模的高速增长。

算力和产业的相互影响，促进了双方都在快速发展，不断变化。这也说明需要构建新型智能计算基础设施，支持产业智能化的深化。

那智能算力的未来应该是什么样子，才能更好地满足产业智能化升级的需求呢？

百度智能云认为，随着 AI 应用场景更加丰富、超大模型不断的出现、云上 AI 任务的管理复杂性越来越高，芯片多元化、算力规模化、以及云原生化，将成为未来智能算力发展的重点方向。

为了建设 AI 原生的云计算基础设施，我们去年推出了百度百舸·AI 异构计算平台。基于产业智能化和智能算力发展大趋势，我们今年升级发布了 2.0 版本。

百度百舸 2.0 在 AI 计算、AI 存储、AI 容器等模块上，能力进行了增强，功能进行了丰富，同时全新发布 AI 加速套件。

AI 加速套件，通过存训推一体化的方式，对数据的读取和查询、训练、推理进行加速，进一步提升 AI 作业速度。

首先我们来看 AI 相关的计算和网络部分。

为了提升集群通信效率，我们全新发布了弹性 RDMA 网卡。相比传统专用的 RDMA 网络，弹性 RDMA 网络和 VPC 网络进行了融合，使得用户的使用成本更低。相比传统的 TCP 网络，弹性 RDMA 的通信延时降低了 2-3 倍。同时，弹性 RDMA 还支持 GPU Direct RDMA，进一步提升 AI 集群训练速度。

百度持续投入 AI 的全栈能力建设，昆仑芯是其中重要的部分。

今天，我昆仑芯二代的云服务器也发布上市，为用户提供多元化的智能算力。昆仑芯二代采用了 XPU-R 架构，支持硬件级别的虚拟化，同时为用户快速地使用昆仑芯二代，我们提供了专属镜像。

针对典型 AI 负载，第二代昆仑芯的性能，相比一代提升了 2-3 倍，平均加速比是业界主流 GPU 的 1.5 倍。

在 AI 存储部分，百度百舸 2.0 进行了全面升级，提升性能的同时降低使用成本。

我们全新发布了并行文件存储 PFS 的裸金属版本，支持 IB 网络，可将计算对数据的访问延迟降低至百 us 级别。

同时，对象存储 BOS 新增了原生层级 namespace，可以将元数据访问速度提升 4 倍以上。

在存储性能大幅度提升的同时，我们通过 Bucketlink 将 PFS 和 BOS 打通。这不仅提升了数据湖的访问性能，同时降低数据存储成本。

在 AI 加速部分，我们推出的存训推一体化加速方案，全面加速了数据湖存储访问、分布式训练和推理效率。

数据湖存储加速 RapidFS，这是一个分布式缓存系统，可以加速数据集访问，训练效率提升 5~10 倍。

分布式训练加速，能有效提升分布式训练的性能，在典型模型场景下吞吐提升 50%~150%。

在模型完成训练进行部署后，通过推理加速，提升 AI 应用的响应速度。在典型模型场景下时延降低 40%~60%。

在 AI 容器部分，百度百舸 2.0 在业界率先推出了双引擎 GPU 容器虚拟化方案，可以满足各类场景的要求，提升 GPU 资源利用率。

这个双引擎 GPU 容器虚拟化方案，包括内核态和用户态两种虚拟化方案。

内核态虚拟方案是我们今年全新发布的，能够为业务提供强隔离环境。

用户态虚拟方案，是百度内部大规模使用了多年的方案，支撑了各类 AI 业务的落地。今年我们对他进行了增强，进一步提升资源利用率。

更详细内容可以参考《双引擎 GPU 容器虚拟化，用户态和内核态的技术解析和实践分享》。

在完成各个模块的升级后，百度百舸 2.0 的优异性能，在测试结果中得到了充分展现。

在今年 6 月 30 日发布的 MLPerf Trainning v2.0 的榜单中，百度百舸和百度飞桨联合提交的 BERT Large 模型 GPU 训练性能结果，在同等 GPU 配置下排名第一，超越了高度定制优化且长期处于榜单领先位置的 NGC PyTorch 框架。

从图中可以看到，百度百舸和百度飞桨的组合方案比其他结果快 5%-11% 不等。

百度百舸在行业智能化升级的深化过程中发挥了重大作用。

百度百舸支持了文心大模型的落地。这是全球最大中文单体模型，2600 亿参数规模。

百度百舸提供了千卡规模、单集群 EFLOPS 级别的算力，配备了 1.6Tbps 的高速网络，提供百万 IOPS 的并行文件存储系统。

通过 AI 容器提供的容错、架构感知等手段，为文心大模型的训练提供了稳定的运行环境，满足长时间周期的业务需要。

在自动驾驶领域，百度百舸为用户提供了软硬一体的智能基础设施。

在高性能的智能基础设施基础上，百度智能云针对自动驾驶算法、通过显存卸载、算子融合、梯度融合等手段，可以将 Transformer 算法训练吞吐提升了 1.5 倍以上，加速了自动驾驶的研发进程。

在生科医疗领域，百度百舸提供高性能生物计算的平台，作为高通量药物发现的引擎，可以满足 EB 级海量数据、千亿级参数的大模型训练，使得蛋白质结构的预测模型的迭代周期，从过去月级别提升至天级别。

其中，高性能网络为大规模的集群训练提供微秒级的通信时延。通过算力统一调度，满足不同场景的算力需求。同时，借助数据湖存储和对象存储之间打通后的能力，为用户降低数据存储成本一半以上。

基于百度百舸的智算中心，能够提供普惠多元的 AI 算力，支持 AI 应用的大规模发展，做到产业的全场景覆盖，推动城市数字经济的高速发展。

最近，百度智能云 - 昆仑芯（盐城）智算中心落地汽车产业重镇盐城，可为盐城周边的智能经济发展提供庞大的 AI 算力和海量的数据处理能力，加速智能化升级。

该智算中心将成为当地科技创新的动力源泉，向长三角区域源源不断地输出最前沿的科研创新成果。

视频回放链接：

https://cloud.baidu.com/summit/summer_summit_2022/index.html

登录查看更多

相关内容

产业智能化

关注 2

数字政府行业趋势洞察（2022年）

专知会员服务

58+阅读 · 2022年8月17日

重磅！《云计算白皮书（2022年）》发布，47页pdf

专知会员服务

75+阅读 · 2022年7月21日

6G内生AI网络架构十问

专知会员服务

39+阅读 · 2022年5月18日

6G 无线内生AI架构与技术白皮书（2022）

专知会员服务

39+阅读 · 2022年5月18日

阿里云发布《中国云原生数据湖应用洞察白皮书》

专知会员服务

43+阅读 · 2022年4月15日

腾讯：2022年十大数字科技应用趋势

专知会员服务

81+阅读 · 2022年1月13日

2021数字化转型白皮书（附下载）

专知会员服务

90+阅读 · 2021年10月14日

中国信通院发布《云计算白皮书》，55页pdf

专知会员服务

81+阅读 · 2021年7月28日

新基建产品手册: 人工智能、5G、车联网、数据中心等，72页pdf

专知会员服务

98+阅读 · 2021年5月9日

云网融合向算网一体技术演进白皮书, 35页pdf

专知会员服务

91+阅读 · 2021年3月31日

核心产品全面Serverless化、开源300多个AI模型加速软件AI化，阿里云如何抓住技术“定义权”?| Q推荐

InfoQ

0+阅读 · 2022年11月4日

阿里云张建锋谈新型计算体系：云正在重构硬件、软件和终端世界

阿里技术

0+阅读 · 2022年11月3日

产业智能化升级的最短路径是什么？我们在“云智一体3.0”中找到了答案 | Q推荐

InfoQ

0+阅读 · 2022年9月7日

专访百度副总裁侯震宇：企业如何解决“用好云”的进阶问题？| Q推荐

InfoQ

0+阅读 · 2022年7月21日

阿里云发布云数据中心处理器CIPU，替代CPU成为云时代IDC的处理核心

AI前线

1+阅读 · 2022年6月13日

阿里云发布《中国云原生数据湖应用洞察白皮书》，51页pdf

专知

0+阅读 · 2022年4月16日

这三份白皮书里，藏着企业选型数据库的关键 | Q推荐

InfoQ

1+阅读 · 2022年4月11日

重磅发布全总结，一文看懂阿里云弹性计算年度峰会

CSDN

0+阅读 · 2021年12月23日

知识中台，打通产业智能化升级之路 | Q推荐

InfoQ

1+阅读 · 2021年12月23日

新趋势：知识中台驱动产业智能化升级｜ Q推荐

InfoQ

1+阅读 · 2021年12月8日

互联云环境下面向数据中心的服务资源分配与调度机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

集群环境下基于内存的高性能数据管理与分析

国家自然科学基金

0+阅读 · 2013年12月31日

移动优先的智能内容获取与分发技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

信息计算驱动的制造车间智能物联网配置与运行服务方法研究

国家自然科学基金

3+阅读 · 2013年12月31日

面向高可用云服务的虚拟资源敏捷管理技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

汽车嵌入式系统服务与数据融合中间件研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向效率改进的综合客运枢纽设施配置和服务水平仿真评价研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向光子网格应用的上行多波长动态调度无源光网络

国家自然科学基金

0+阅读 · 2009年12月31日

基于集群价值创造多层超网络动态优化的内生型产业集群升级研究

国家自然科学基金

0+阅读 · 2009年12月31日

ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT

Arxiv

0+阅读 · 2022年11月30日

Automated Generating Natural Language Requirements based on Domain Ontology

Arxiv

0+阅读 · 2022年11月30日

Curriculum Temperature for Knowledge Distillation

Arxiv

0+阅读 · 2022年11月29日

A Close Look into the Calibration of Pre-trained Language Models

Arxiv

0+阅读 · 2022年11月28日

FsaNet: Frequency Self-attention for Semantic Segmentation

Arxiv

0+阅读 · 2022年11月28日

Metric entropy of causal, discrete-time LTI systems

Arxiv

0+阅读 · 2022年11月28日

PKCAM: Previous Knowledge Channel Attention Module

Arxiv

0+阅读 · 2022年11月25日

Cutting the cost of pulsar astronomy: Saving time and energy when searching for binary pulsars using NVIDIA GPUs

Arxiv

0+阅读 · 2022年11月24日

Active Learning for Domain Adaptation: An Energy-based Approach

Arxiv

13+阅读 · 2021年12月2日

KD3A: Unsupervised Multi-Source Decentralized Domain Adaptation via Knowledge Distillation

Arxiv

10+阅读 · 2020年12月8日

VIP会员