大语言模型(LLMs)中的上下文学习(ICL)通过从整个训练数据中选择少量示范,提供了强大的少量样本学习能力。然而,现有的ICL方法依赖于相似性或多样性评分来选择示范,这导致了高计算成本,因为每个查询都需要反复从大规模数据集中进行检索。
为此,我们提出了FEEDER(FEw yet Essential Demonstration prE-selectoR),一种新颖的预选择框架,它识别包含训练数据中最具代表性的示范子集,并针对特定的LLM进行定制。为了构建这个子集,我们在预选择阶段引入了“充分性”和“必要性”指标,并设计了一种基于树的算法来高效识别代表性示例。一旦预选完成,这个代表性子集可以有效替代完整的训练数据,在提高效率的同时保持ICL中的可比性能。 此外,我们的预选子集还对微调LLM有帮助,我们引入了一种双层优化方法,在不牺牲性能的前提下提高了训练效率。对于参数从3亿到80亿的LLM的实验结果表明,FEEDER可以减少超过20%的训练数据量,同时保持性能,并与ICL中的各种下游示范选择策略无缝集成。