In transfer learning, training and testing data sets are drawn from different data distributions. The transfer generalization gap is the difference between the population loss on the target data distribution and the training loss. The training data set generally includes data drawn from both source and target distributions. This work presents novel information-theoretic upper bounds on the average transfer generalization gap that capture $(i)$ the domain shift between the target data distribution $P'_Z$ and the source distribution $P_Z$ through a two-parameter family of generalized $(\alpha_1,\alpha_2)$-Jensen-Shannon (JS) divergences; and $(ii)$ the sensitivity of the transfer learner output $W$ to each individual sample of the data set $Z_i$ via the mutual information $I(W;Z_i)$. For $\alpha_1 \in (0,1)$, the $(\alpha_1,\alpha_2)$-JS divergence can be bounded even when the support of $P_Z$ is not included in that of $P'_Z$. This contrasts the Kullback-Leibler (KL) divergence $D_{KL}(P_Z||P'_Z)$-based bounds of Wu et al. [1], which are vacuous under this assumption. Moreover, the obtained bounds hold for unbounded loss functions with bounded cumulant generating functions, unlike the $\phi$-divergence based bound of Wu et al. [1]. We also obtain new upper bounds on the average transfer excess risk in terms of the $(\alpha_1,\alpha_2)$-JS divergence for empirical weighted risk minimization (EWRM), which minimizes the weighted average training losses over source and target data sets. Finally, we provide a numerical example to illustrate the merits of the introduced bounds.
翻译:在传输学习中, 培训和测试数据集是从不同的数据分布中提取的。 转移一般化差距是目标数据分布上的人口损失与培训损失之间的差别。 培训数据集通常包括从源和目标分布上获取的数据。 这项工作展示了在平均传输一般化差距上的新信息理论上限, 以( i) 美元在目标数据分布 $P $ $ 美元和源分配 $P $ $ 美元之间, 以两个参数为单位, 以( alpha_ 1,\ alpha_ 2) 美元计算, 以( jensen- Jensen( JS) 差异; 和 $( ) jensen- Jhann ( JS) 之间的差额差异。 转移学生产出的敏感度为$W$ 美元 ; 数据单个样本的敏感度为 $( i) 。 对于目标数据分布在 AL1, 美元 1, 美元 和 以 美元 以 美元 以 美元 以 美元 以 以 美元 以 美元 以 美元 以 美元 以 以 以 以 以 以 以 以 以 以 以 美元 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以