The collaborative efforts of large communities in science experiments, often comprising thousands of global members, reflect a monumental commitment to exploration and discovery. Recently, advanced and complex data processing has gained increasing importance in science experiments. Data processing workflows typically consist of multiple intricate steps, and the precise specification of resource requirements is crucial for each step to allocate optimal resources for effective processing. Estimating resource requirements in advance is challenging due to a wide range of analysis scenarios, varying skill levels among community members, and the continuously increasing spectrum of computing options. One practical approach to mitigate these challenges involves initially processing a subset of each step to measure precise resource utilization from actual processing profiles before completing the entire step. While this two-staged approach enables processing on optimal resources for most of the workflow, it has drawbacks such as initial inaccuracies leading to potential failures and suboptimal resource usage, along with overhead from waiting for initial processing completion, which is critical for fast-turnaround analyses. In this context, our study introduces a novel pipeline of machine learning models within a comprehensive workflow management system, the Production and Distributed Analysis (PanDA) system. These models employ advanced machine learning techniques to predict key resource requirements, overcoming challenges posed by limited upfront knowledge of characteristics at each step. Accurate forecasts of resource requirements enable informed and proactive decision-making in workflow management, enhancing the efficiency of handling diverse, complex workflows across heterogeneous resources.


翻译:科学实验中大型协作社区(通常包含数千名全球成员)的努力体现了对探索与发现的重大承诺。近年来,先进且复杂的数据处理在科学实验中日益重要。数据处理工作流通常由多个复杂步骤组成,每个步骤的资源需求精确规格对于分配最优资源以实现高效处理至关重要。由于分析场景范围广泛、社区成员技能水平参差不齐以及计算选项谱系持续扩展,预先估算资源需求具有挑战性。缓解这些挑战的一种实用方法是:在完成整个步骤前,先处理每个步骤的子集以从实际处理配置文件中测量精确的资源利用率。虽然这种两阶段方法能为工作流的大部分环节实现最优资源处理,但其存在若干缺点:初始估算不准确可能导致处理失败和资源使用欠佳,同时等待初始处理完成会产生开销,这对于快速周转分析尤为关键。在此背景下,本研究在综合工作流管理系统——生产与分布式分析(PanDA)系统中引入了一种新颖的机器学习模型流水线。这些模型采用先进的机器学习技术预测关键资源需求,克服了每个步骤特性先验知识有限所带来的挑战。资源需求的准确预测使工作流管理能够进行知情且主动的决策,从而提升跨异构资源处理多样化复杂工作流的效率。

0
下载
关闭预览

相关内容

专知会员服务
19+阅读 · 2021年7月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员