大规模异构服务调度平台实践

2020 年 2 月 10 日 InfoQ


调度系统的应用可以追溯到 20 世纪 70 年代分时系统的进程调度上。之后随着大规模集成电路工艺技术、计算机网络技术以及人工智能技术的飞跃发展,调度系统在多个技术与业务领域中得到了非常广泛地应用。在分布式资源调度管理领域,YARN 和 K8s 已经有了很大的发展,此外,新兴开源项目 YuniKorn,尝试用一个通用资源调度器,同时支持无状态批处理任务以及状态服务的混合调度。

在工作流调度系统领域,各大互联网公司都自研了面向公司需求的工作流调度系统,其能力与性能相比于开源项目,如 Airflow、Azkaban、Oozie 等,都有极大的提升。在配送、打车业务场景下,如何匹配骑手与订单,如何匹配乘客与司机才更高效,帮助公司获取更大利润。在 CDN 流量调度业务场景下,如何对流量进行调度,才能获取更好的用户体验,帮助公司获取更多的用户与粘性。这些都是特定的业务场景下,求解关于有限资源的智能调度的方案。

QCon 北京 2020 将邀请一线互联网公司专家分享相关业务与技术场景下,调度系统应用的案例与技术实践。

1大规模异构服务调度平台实践

随着 AI 的广泛应用,越来越多的业务会使用各种深度学习模型,而复杂网络带来的计算复杂度往往需要通过 GPU/NPU 来解决。跟传统的 CPU 计算不一样,GPU/NPU 的算力发挥通常需要做模型加速 / 优化,常用的手段包括剪枝、量化和定制化 OP 等等,这些手段往往是硬件相关的。

在云原生时代,这种硬件相关性给模型的构建和运维交付带来新的挑战,对于一个模型服务,难以做到传统的 Build Once Run Anywhere。而与此同时,不仅英伟达这种传统厂商在不断发布新 GPU,阿里巴巴也开始发力 AI 芯片,硬件的种类日趋丰富。

随着新硬件的推出,老硬件通常会出现停产,这意味着已有服务的水平伸缩会逐渐受限,这种情况显然是无法接受的。阿里巴巴高级技术专家邓锦添将为大家介绍阿里巴巴内容安全中台的核心系统:异构服务调度平台 Fission,通过这个平台,阿里巴巴在全球多个区域部署数百个模型服务,调度数千张 GPU/NPU,每天提供数十亿推理服务,而且不仅服务阿里内部众多生态公司,还通过阿里云给诸多知名互联网企业提供内容安全服务。

你将了解

  • 了解异构服务调度的背景和问题;

  • 了解阿里巴巴在异构服务调度上的实践经验。

2基于实时计算的超大规模直播体验优化实战

以快手为代表的短视频平台所延伸出的直播生态成为内容平台的新增量,它为更多用户提供了看见、分享多样生活的可能性,为公会、主播、普通人提供了新的变现渠道。作为 DAU 已超过 1 亿的直播生态服务平台,快手技术团队需要持续监测线上内容分发质量,解决故障和质差问题给用户带来的体验问题。

快手流媒体体验优化团队负责人郭君健将给大家介绍他们如何基于 Flink 构建实时稳定的计算服务,通过专业的 QoS 和 QoE 实验和分析方法,实现线上 CDN 流量的实时调度,不断改善用户体验,为每个普通人提供专业稳定的直播开播和观看服务。

你将了解

  • 如何构建稳定的实时计算服务;

  • 如何评价在线流量质量,实现高效的内容分发调度;

  • 如何做好基于多维分析的故障检测机制;

  • 如何评价调度效果,数据驱动和 QoS vs QoE 分析。

更多技术前沿实践请持续关注 QCon 全球软件开发大会(北京站)2020,目前大会 8 折报名中,立减 1760 元,有更多问题欢迎联系 Ring:17310043226(微信同号)

登录查看更多
0

相关内容

计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
FPGA加速系统开发工具设计:综述与实践
专知会员服务
63+阅读 · 2020年6月24日
专知会员服务
78+阅读 · 2020年6月20日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
81+阅读 · 2020年5月23日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
主流互联网平台广告业务对比分析
百度公共政策研究院
29+阅读 · 2019年5月20日
蚂蚁金服微服务实践(附演讲PPT)
开源中国
17+阅读 · 2018年12月21日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
人工智能大数据平台中Golang的应用实践
MomentaAI
5+阅读 · 2018年9月27日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
【人工智能架构】深度解密京东登月平台基础架构
产业智能官
11+阅读 · 2017年9月26日
Arxiv
10+阅读 · 2019年2月19日
Learning Recommender Systems from Multi-Behavior Data
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
8+阅读 · 2018年2月23日
VIP会员
相关资讯
主流互联网平台广告业务对比分析
百度公共政策研究院
29+阅读 · 2019年5月20日
蚂蚁金服微服务实践(附演讲PPT)
开源中国
17+阅读 · 2018年12月21日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
18+阅读 · 2018年11月27日
人工智能大数据平台中Golang的应用实践
MomentaAI
5+阅读 · 2018年9月27日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
【人工智能架构】深度解密京东登月平台基础架构
产业智能官
11+阅读 · 2017年9月26日
Top
微信扫码咨询专知VIP会员