来源 | 中国信息通信研究院(转载请注明来源)
编辑 | 数据君
在人工智能(AI)技术日新月异的今天,大模型技术已成为推动行业智能化转型的重要力量。随着模型参数量的不断增长,大模型展现出强大的理解能力和复杂数据处理能力,在金融、医疗、政务等多个领域展现出巨大的应用潜力。然而,大模型的落地并非易事,其背后离不开高质量大模型基础设施的支撑。近日,中国信息通信研究院发布的高质量大模型基础设施研究报告(2024年),为我们揭示了这一领域的现状、挑战与未来发展方向。
大模型基础设施作为支持大规模人工智能模型训练、部署和应用的硬件和软件资源的集合,是AI技术发展的基石。它涵盖了高性能计算、海量数据存储、高速网络连接资源,以及相应的软件框架和工具链,旨在为大模型的开发、训练和推理提供高效、可靠和可扩展的支撑环境。随着大模型技术的快速发展,对基础设施的要求也越来越高,如何构建高质量的大模型基础设施,成为当前AI领域亟待解决的问题。
当前,大模型基础设施普遍面临可用性低、稳定性差等问题。研究报告指出,大模型基础设施的可用度仍有较大提升空间,平均无故障运行时间、平均故障定位时间和平均故障恢复时间等指标是衡量其可用性的关键。同时,高性能、可扩展性和可评价性也是高质量大模型基础设施的重要特征。高性能意味着提高算力供给能力,以满足大模型对算力的巨大需求;可扩展性要求基础设施在负载增加时,能够迅速增加资源以维持或提高性能;而可评价性则是指通过完整、有效的评价体系反映大模型基础设施的应用成效。