基于搜索的技术已被证明能够有效地解决面向领域的机器学习编译器中出现的复杂优化问题。不幸的是,在生产编译器中部署这种技术受到了一些限制。在这次演讲中,我将介绍一个用于生产ML编译器的自动调优器,它可以在多个编译阶段同时调优图级和子图级优化。autotuner应用了一种灵活的搜索方法,通过精确建模不同编译器之间的交互来定义联合优化的搜索公式。自动调优器使用各种搜索策略在生产式ML编译器XLA中调整张量布局、算子融合决策、块大小和代码生成参数。我们演示了如何结合机器学习技术,如学习成本模型和各种基于学习的搜索策略,以减少自动调整时间。我们的学习成本模型具有很高的准确性,并优于一个高度优化的分析性能模型。在张量处理单元(TPU)上的150 ML训练和推理模型的评估中,自调优器提供了高达2.4倍的运行速度,比高度优化的XLA编译器平均提高了5%的运行速度。该自动调优器已部署在谷歌产品中,每天自动调整最常用的生产型号。