总结 | 基于知识蒸馏的推荐系统

会员服务 ·

总结 | 基于知识蒸馏的推荐系统

2021 年 10 月 28 日 机器学习与推荐算法

↑↑↑关注后"星标"机器学习与推荐算法

炼丹笔记干货

作者：十方

无论是商品推荐，还是广告推荐，都大致可以分为召回，预排序(粗排)，精排等阶段，如上篇<淘宝搜索中基于embedding的召回>的图所示：

召回最重要的就是要快，高召回率，对准确率可以不必要求太高，所以召回模型往往就是双塔模型，最经典的就是youtube双塔:

后面各种论文大多都说基于样本构造，模型结构，增加特征等方面去优化召回模型，但是不得不提到的是，蒸馏也是个提高召回侧模型效果的一个好方法。

由于受限于线上性能，在广告/商品召回阶段，我们通常采用深度学习双塔模型结构，离线先计算保存好ad/item embedding，线上实时预测出user embedding再通过近邻检索召回相似广告。user塔和ad塔是两个独立的神经网络，而user侧特征和ad侧特征没有交互，损失了很多有用信息，且因为user embedding线上实时inference，这就限制了user塔的特征规模及模型结构复杂度。对于这两个问题，蒸馏模型提供了一种解决方法。以下是蒸馏模型的特点：

由于training阶段不要求实时操作，允许训练一个复杂的模型，蒸馏模型可以在training阶段用复杂度高的网络（teacher network）-学到的知识指导较为简单的网络（student network）学习，在serving阶段以较小的计算代价来使用简单网络，同时保持一定的网络预测能力。
对于一些线上serving阶段无法获取的但又对目标有实际意义的特征，如用户与广告或商品的交互特征等，可以在training阶段将这类特征都加入teacher network学习，而线上serving阶段只需获取用于训练student network的基本特征，serving过程只使用student network结构。
可以将集成的知识压缩在简单的模型中。对于一个已经训练好的复杂的模型，如果要集成的话要带来很大的计算开销，而使用蒸馏模型可以用复杂模型指导一系列简单模型学习，根据复杂的大网络和一系列简单模型的输出作为目标，训练一个最终的模型，可不用对复杂模型进行集成。

当然，蒸馏用在召回，更重要的意义是保证召回，预排序(粗排)，精排一致性，而不是蒸馏一堆看似高大上的特点。为啥要保证一致性呢？召回侧最终服务于排序，选出排序认可的才是最重要的，如果召回的都不是排序认可的，那排序模型也只能矮子里挑高的选，这样会影响整体的收益。如果召回模型在训练阶段增加对精排的拟合，是不是可以近似达到精排模型在全库搜索的效果呢？

那么推荐系统中蒸馏应该怎么做呢？其实最简单的就是改loss，除了交叉熵损失，可以增加和teacher预估不一致而带来的损失，辅助学习。