网络管理对于研究人员和行业来说越来越难以应对。网络的规模和复杂性正在迅速增长。它们现在必须满足比以往任何时候都更大的应用集和更大的用户群,同时还要遵守越来越严格的性能要求。面对运行网络的众多挑战,运营商必须超越手动调优算法的时代,转而采用更自动化的方法——即 AI 驱动的网络。在寻找更多功能的网络工具时,许多研究人员已将机器学习(ML)视为网络系统中的数据驱动、自适应机制的工具。然而,一些实际问题困扰着这样的发展。我们能否在数据包路径中运行 ML?运营商必须手动构建每个新的 ML 模型吗?我们如何纳入新的数据?在这篇论文中,我们展示了构建 AI 驱动网络所需的关键组件的构建。我们首先描述了 Taurus 的设计,这是一个平台,使数据平面 ML 能够以每个数据包的粒度,在线速率上运行在网络的数据包路径中。此外,我们证明了 Taurus 的硬件添加的开销最小——在我们的原型中,芯片面积不到 4%,功耗不到 3%。接下来,我们讨论了 Homunculus,这是一个针对数据平面 ML 平台(如 Taurus)的编译器堆栈,它允许自动生成符合资源和性能要求的 ML 模型,这些模型在我们的测试中比手动调整的模型性能提高了高达 16.9%。最后,我们展示了如何组装这些工具以在网络中启用自适应的 ML 循环。网络中的原始数据的在线标注可以为 Homunculus 提供数据,使网络能够从其自身的数据包数据中构建新的 ML 模型。这些模型可以在 Taurus 中部署学习到的策略,为即将出现的 AI 驱动的网络奠定基础。