Large language models are increasingly adapted to downstream tasks through fine-tuning. Full supervised fine-tuning (SFT) and parameter-efficient fine-tuning (PEFT) methods, such as Low-Rank Adaptation (LoRA), are two dominant approaches. While PEFT methods are widely used for their computational efficiency, the implications of their configurations (e.g., rank) remain under-explored in downstream Q&A tasks and generalisation. In this work, we perform a comprehensive evaluation across multiple reasoning and recall datasets, conducting a rank sweep to quantify the trade-off between SFT and PEFT. We also compare the accuracy of PEFT and SFT models across in-domain and out-of-domain adaptation, highlighting distinct generalisation behaviour and task-specific forgetting. We demonstrate that LoRA achieves competitive and in some cases superior performance compared to SFT, particularly on reasoning tasks at specific rank values. Additionally, we analyze the internal representations via spectral features and layer-wise attention structures, offering insights into representational drift and structural changes in attention patterns.


翻译:大型语言模型越来越多地通过微调适应下游任务。全监督微调(SFT)和参数高效微调(PEFT)方法,如低秩自适应(LoRA),是两种主流方法。尽管PEFT方法因其计算效率而被广泛使用,但其配置(如秩)在下游问答任务和泛化中的影响仍未得到充分探索。本研究在多个推理和记忆数据集上进行了全面评估,通过秩扫描量化了SFT与PEFT之间的权衡。我们还比较了PEFT和SFT模型在域内与域外适应中的准确性,突出了不同的泛化行为和任务特定遗忘现象。我们证明,LoRA在特定秩值下,尤其在推理任务上,实现了与SFT相当甚至更优的性能。此外,我们通过谱特征和层级注意力结构分析了内部表示,为表示漂移和注意力模式的结构变化提供了见解。

0
下载
关闭预览

相关内容

【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员