人工智能是数字经济的核心驱动力,AI 大模型是人工智能的新引擎。AI 大模型指通过在海量数据上进行预训练,能够适应多种下游任务的模型,具有强大的泛化能力、自监督学习功能和精度突破性能。其已经在自然语言处理、计算机视觉、气象预报等多个领域取得了令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新范式。
近年来,随着 ChatGPT 等生成式人工智能(AIGC)的突飞猛进,全球范围内的经济价值预计将达到数万亿美元。尤其在中国市场,生成式 AI 的应用规模有望在 2025 年突破 2000亿元。这一巨大的潜力不仅吸引着业内领军企业竞相推出万亿、10 万亿参数量级别的大模型,而且对底层 GPU 支撑规模提出了更高的要求,达到了万卡级别。然而,如何满足如此庞大规模的训练任务,对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。
以 GPT3.5 为例,其训练过程依赖于微软专门建设的 AI 超算系统,由 1 万个 V100 GPU 组成的高性能网络集群,总计算力消耗约为 3640 PF-days。在这种情况下,寻求提供极致高性能网络已成为人工智能领域的重要研究方向之一。
日前,针对AI大模型带来的挑战,中国移动联合华为、中兴、锐捷、思博伦、云脉芯联、星云智联、中科驭数、博通公司、是德科技、大禹智芯等十余家合作伙伴发布《面向AI大模型的智算中心网络演进白皮书》。
本白皮书将从 AI 业务发展的历程出发,深入研究大模型对网络能力的需求,分析当前网络与业务需求的差距,并探索网络技术发展趋势以弥补这一差距。我们希望,通过本白皮书的研究和分析,为未来面向 AI 大模型的智能计算中心网络发展提供有益的参考和启示。