有限资源下如何做好智能调度?丨QCon

2020 年 3 月 2 日 InfoQ

调度系统的应用可以追溯到 20 世纪 70 年代分时系统的进程调度上。之后随着大规模集成电路工艺技术、计算机网络技术以及人工智能技术的飞跃发展,调度系统在多个技术与业务领域中得到了非常广泛地应用。

在分布式资源调度管理领域,YARN 和 K8s 已经有了很大的发展,此外,新兴开源项目 YuniKorn,尝试用一个通用资源调度器,同时支持无状态批处理任务以及状态服务的混合调度。在工作流调度系统领域,各大互联网公司都自研了面向公司需求的工作流调度系统,其能力与性能相比于开源项目,如 Airflow、Azkaban、Oozie 等,都有极大的提升。

在配送、打车业务场景下,如何匹配骑手与订单,如何匹配乘客与司机才更高效,帮助公司获取更大利润。在 CDN 流量调度业务场景下,如何对流量进行调度,才能获取更好的用户体验,帮助公司获取更多的用户与粘性。

这些都是特定的业务场景下,求解关于有限资源的智能调度的方案。QCon 将邀请一线互联网公司专家分享相关业务与技术场景下,调度系统应用的案例与技术实践。

1 基于实时计算的超大规模直播体验优化实战

以快手为代表的短视频平台所延伸出的直播生态成为内容平台的新增量,它为更多用户提供了看见、分享多样生活的可能性,为公会、主播、普通人提供了新的变现渠道。作为 DAU 已超过 1 亿的直播生态服务平台,快手需要持续监测线上内容分发质量,解决故障和质差问题给用户带来的体验问题,快手流媒体体验优化团队负责人郭君健将给大家介绍的是他们如何基于 Flink 构建实时稳定的计算服务,通过专业的 QoS 和 QoE 实验和分析方法,实现线上 CDN 流量的实时调度,不断改善用户体验,为每个普通人提供专业稳定的直播开播和观看服务。

你将收获
  • 如何构建稳定的实时计算服务;

  • 如何评价在线流量质量,实现高效的内容分发调度;

  • 如何做好基于多维分析的故障检测机制;

  • 如何评价调度效果,数据驱动和 QoS vs QoE 分析。

2 大规模异构服务调度平台实践

随着 AI 的广泛应用,越来越多的业务会使用各种深度学习模型,而复杂网络带来的计算复杂度往往需要通过 GPU/NPU 来解决。跟传统的 CPU 计算不一样,GPU/NPU 的算力发挥通常需要做模型加速 / 优化,常用的手段包括剪枝、量化和定制化 OP 等等,这些手段往往是硬件相关的。

在云原生时代,这种硬件相关性给模型的构建和运维交付带来新的挑战,对于一个模型服务,难以做到传统的 Build Once Run Anywhere。而与此同时,不仅英伟达这种传统厂商在不断发布新 GPU,阿里巴巴也开始发力 AI 芯片,硬件的种类日趋丰富。

随着新硬件的推出,老硬件通常会出现停产,这意味着已有服务的水平伸缩会逐渐受限,这种情况显然是无法接受的。阿里巴巴高级技术专家邓锦添将给大家介绍阿里巴巴内容安全中台的核心系统:异构服务调度平台 Fission,通过这个平台,我们在全球多个区域部署数百个模型服务,调度数千张 GPU/NPU,每天提供数十亿推理服务,而且不仅服务阿里内部众多生态公司,还通过阿里云给诸多知名互联网企业提供内容安全服务。

你将收获
  • 了解异构服务调度的背景和问题;

  • 了解阿里巴巴在异构服务调度上的实践经验。

3 大数据场景下的工作流编排调度系统实践

字节跳动做为一个数据驱动的公司,一直致力于让数据更高效地服务于各个业务。随着业务的不断发展,字节跳动在大数据任务开发和调度方面遇到了很多挑战。为此开发了“大数据开发和调度平台“,可以快速完成数据集成、开发、调度和运维等全套研发工作。面对公司的业务复杂性以及任务量,完成秒级延迟、复杂依赖关系的任务调度有很大的挑战。字节跳动高级软件工程师方传云的分享将介绍调度平台整体系统架构、大任务量高可用低延时需求带来的挑战以及实践中的经验总结。

你将收获
  • 了解高可用的工作流调度系统架构设计;

  • 了解字节跳动在工作流调度系统的实践与经验。

更多技术干货请持续关注 QCon 全球软件开发大会(北京站)2020,点击【阅读原文】查看更多内容设置。有任何问题欢迎联系票务 Ring:17310043226(微信同号)

👇点击阅读原文查看更多大会议题

登录查看更多
3

相关内容

计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
FPGA加速系统开发工具设计:综述与实践
专知会员服务
63+阅读 · 2020年6月24日
人机对抗智能技术
专知会员服务
189+阅读 · 2020年5月3日
专知会员服务
121+阅读 · 2020年3月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
【精益】精益生产与智能制造的联系和支撑
产业智能官
36+阅读 · 2019年9月14日
【干货】电商数据中台如何构建?
AliData
10+阅读 · 2019年4月4日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【智能商务】海量商品查找利器—苏宁搜索系统
产业智能官
5+阅读 · 2017年12月1日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
Teacher-Student Training for Robust Tacotron-based TTS
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
相关论文
Teacher-Student Training for Robust Tacotron-based TTS
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
3+阅读 · 2012年11月20日
Top
微信扫码咨询专知VIP会员