调度系统的应用可以追溯到 20 世纪 70 年代分时系统的进程调度上。之后随着大规模集成电路工艺技术、计算机网络技术以及人工智能技术的飞跃发展,调度系统在多个技术与业务领域中得到了非常广泛地应用。在分布式资源调度管理领域,YARN 和 K8s 已经有了很大的发展,此外,新兴开源项目 YuniKorn,尝试用一个通用资源调度器,同时支持无状态批处理任务以及状态服务的混合调度。
在工作流调度系统领域,各大互联网公司都自研了面向公司需求的工作流调度系统,其能力与性能相比于开源项目,如 Airflow、Azkaban、Oozie 等,都有极大的提升。在配送、打车业务场景下,如何匹配骑手与订单,如何匹配乘客与司机才更高效,帮助公司获取更大利润。在 CDN 流量调度业务场景下,如何对流量进行调度,才能获取更好的用户体验,帮助公司获取更多的用户与粘性。这些都是特定的业务场景下,求解关于有限资源的智能调度的方案。
QCon 北京 2020 将邀请一线互联网公司专家分享相关业务与技术场景下,调度系统应用的案例与技术实践。
随着 AI 的广泛应用,越来越多的业务会使用各种深度学习模型,而复杂网络带来的计算复杂度往往需要通过 GPU/NPU 来解决。跟传统的 CPU 计算不一样,GPU/NPU 的算力发挥通常需要做模型加速 / 优化,常用的手段包括剪枝、量化和定制化 OP 等等,这些手段往往是硬件相关的。
在云原生时代,这种硬件相关性给模型的构建和运维交付带来新的挑战,对于一个模型服务,难以做到传统的 Build Once Run Anywhere。而与此同时,不仅英伟达这种传统厂商在不断发布新 GPU,阿里巴巴也开始发力 AI 芯片,硬件的种类日趋丰富。
随着新硬件的推出,老硬件通常会出现停产,这意味着已有服务的水平伸缩会逐渐受限,这种情况显然是无法接受的。阿里巴巴高级技术专家邓锦添将为大家介绍阿里巴巴内容安全中台的核心系统:异构服务调度平台 Fission,通过这个平台,阿里巴巴在全球多个区域部署数百个模型服务,调度数千张 GPU/NPU,每天提供数十亿推理服务,而且不仅服务阿里内部众多生态公司,还通过阿里云给诸多知名互联网企业提供内容安全服务。
你将了解
了解异构服务调度的背景和问题;
了解阿里巴巴在异构服务调度上的实践经验。
以快手为代表的短视频平台所延伸出的直播生态成为内容平台的新增量,它为更多用户提供了看见、分享多样生活的可能性,为公会、主播、普通人提供了新的变现渠道。作为 DAU 已超过 1 亿的直播生态服务平台,快手技术团队需要持续监测线上内容分发质量,解决故障和质差问题给用户带来的体验问题。
快手流媒体体验优化团队负责人郭君健将给大家介绍他们如何基于 Flink 构建实时稳定的计算服务,通过专业的 QoS 和 QoE 实验和分析方法,实现线上 CDN 流量的实时调度,不断改善用户体验,为每个普通人提供专业稳定的直播开播和观看服务。
你将了解
如何构建稳定的实时计算服务;
如何评价在线流量质量,实现高效的内容分发调度;
如何做好基于多维分析的故障检测机制;
如何评价调度效果,数据驱动和 QoS vs QoE 分析。
更多技术前沿实践请持续关注 QCon 全球软件开发大会(北京站)2020,目前大会 8 折报名中,立减 1760 元,有更多问题欢迎联系 Ring:17310043226(微信同号)