在过去十年中,世界见证了人工智能的指数式增长,特别是基于深度学习的引擎。这些基于深度学习的人工智能引擎构成了现代互联网的骨干,决定了我们每天与技术和社会的互动方式。深度学习引擎给现代软件和硬件系统的设计、开发和部署带来了许多障碍。这些障碍归功于独特的算法级要求,包括高计算、内存和存储强度,以及鉴于深度学习引擎的规模,应用级要求。本论文研究如何实现高性能、高效率和可持续的大规模深度学习系统。论文首先确定了基于深度学习的个性化推荐引擎是生产数据中心人工智能训练和推理周期的主要消费者;对基础设施的高要求不仅阻碍了效率,而且还征收了高环境成本。为了解决个性化推荐引擎带来的独特的系统设计挑战,本论文设计了跨越软件和硬件堆栈的解决方案,通过共同考虑应用层面的特征、独特的神经网络模型架构、数据中心规模影响和底层硬件,优化推理效率。此外,鉴于人工智能和推荐引擎带来的快速增长的基础设施需求,我们表明,系统必须超越性能、功率和能源效率,将环境足迹作为首要的设计目标,以实现可持续计算。论文的结论是,通过平衡性能、效率和可持续性,为设计未来的系统指明了道路,使新兴的人工智能驱动的应用成为可能。