Split learning (SL) is a collaborative learning framework, which can train an artificial intelligence (AI) model between a device and an edge server by splitting the AI model into a device-side model and a server-side model at a cut layer. The existing SL approach conducts the training process sequentially across devices, which incurs significant training latency especially when the number of devices is large. In this paper, we design a novel SL scheme to reduce the training latency, named Cluster-based Parallel SL (CPSL) which conducts model training in a "first-parallel-then-sequential" manner. Specifically, the CPSL is to partition devices into several clusters, parallelly train device-side models in each cluster and aggregate them, and then sequentially train the whole AI model across clusters, thereby parallelizing the training process and reducing training latency. Furthermore, we propose a resource management algorithm to minimize the training latency of CPSL considering device heterogeneity and network dynamics in wireless networks. This is achieved by stochastically optimizing the cut layer selection, real-time device clustering, and radio spectrum allocation. The proposed two-timescale algorithm can jointly make the cut layer selection decision in a large timescale and device clustering and radio spectrum allocation decisions in a small timescale. Extensive simulation results on non-independent and identically distributed data demonstrate that the proposed solutions can greatly reduce the training latency as compared with the existing SL benchmarks, while adapting to network dynamics.
翻译:分解学习( SL) 是一个合作学习框架, 它可以在设备与边缘服务器之间训练人工智能(AI) 模型, 通过将 AI 模型分割成一个设备边模型, 并在剪切层中将服务器边模型分割成一个模块。 现有的 SL 方法在设备之间按顺序进行培训过程, 特别是当设备数量巨大时, 需要大量培训潜伏。 在本文中, 我们设计了一个新的 SL 计划, 以减少培训的延迟性, 名为 Croup- 基建的平行 SL (CPL ), 以“ 第一次单向后顺序” 方式进行模型培训。 具体地说, CPSL 方案是将设备分成几个组, 平行培训设备边模型在每一个组和组合中平行地进行, 然后连续地培训整个模块中的整个AI 模型, 从而使得培训过程同时减少 培训过程的延迟性。 此外, 我们提出一个资源管理算法, 以尽量减少CPL CPL 在无线网络中提议的高度依赖性和网络动态动态动态 。, 将 缩小小规模的 结构选择, 和无线电波段选择 的大规模的大规模的系统, 将 进行大规模的 结构, 进行大规模的 将 进行大规模的 进行大规模的 结构 和无线电波段 进行大规模的 结构 组织 的 的 进行大规模的 进行大规模的, 的 组织式的 的 组织式的, 组织式 组织式 组织式 组织式 组织式的 组织式 组织式 组织式 组织式 组织式的 组织式 组织式 组织式的 的 组织式 进行 的 的 进行 进行 的 的 的 的 的 的 组织式 的 组织式 组织式 组织式 组织式 组织式 组织式 组织式 组织式 组织式 的 的 组织式 。