Machine learning (ML) inference serving systems can schedule requests to improve GPU utilization and to meet service level objectives (SLOs) or deadlines. However, improving GPU utilization may compromise latency-sensitive scheduling, as concurrent tasks contend for GPU resources and thereby introduce interference. Given that interference effects introduce unpredictability in scheduling, neglecting them may compromise SLO or deadline satisfaction. Nevertheless, existing interference prediction approaches remain limited in several respects, which may restrict their usefulness for scheduling. First, they are often coarse-grained, which ignores runtime co-location dynamics and thus restricts their accuracy in interference prediction. Second, they tend to use a static prediction model, which may not effectively cope with different workload characteristics. In this paper, we evaluate the potential limitations of existing interference prediction approaches, finding that coarse-grained methods can lead to noticeable deviations in prediction accuracy and that static models degrade considerably under changing workloads.


翻译:机器学习(ML)推理服务系统可通过调度请求来提高GPU利用率,并满足服务等级目标(SLO)或截止时间要求。然而,提高GPU利用率可能损害对延迟敏感的调度,因为并发任务会竞争GPU资源从而引入干扰。鉴于干扰效应会给调度带来不可预测性,忽视它们可能危及SLO或截止时间的满足。尽管如此,现有的干扰预测方法在多个方面仍存在局限,这可能限制其在调度中的实用性。首先,这些方法通常是粗粒度的,忽略了运行时共置的动态特性,从而限制了干扰预测的准确性。其次,它们倾向于使用静态预测模型,可能无法有效适应不同的工作负载特征。本文评估了现有干扰预测方法的潜在局限性,发现粗粒度方法会导致预测精度出现显著偏差,而静态模型在变化的工作负载下性能会大幅下降。

0
下载
关闭预览

相关内容

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估
专知会员服务
35+阅读 · 2024年1月20日
专知会员服务
30+阅读 · 2020年9月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员