The reliable application of deep learning models to software engineering tasks hinges on high-quality training data. Yet, large-scale repositories inevitably introduce noisy or mislabeled examples that degrade both accuracy and robustness. While Noise Label Learning (NLL) has been extensively studied in other fields, there are a few works that investigate NLL in Software Engineering (SE) and Large Language Models (LLMs) for SE tasks. In this work, we propose MANTRA, a Multi-stage Adaptive Noise TReAtment framework that embeds noise diagnosis and mitigation directly into the fine-tuning process of code-Pretrained Language Models (PTM) and code-LLMs. We first investigate the effect of noise at varying levels on convergence and loss trajectories of the models. Then we apply an adaptive dropout strategy guided by per-sample loss dynamics and Gaussian Mixture Model clustering to exclude persistently noisy points while preserving clean data. Applying to code summarization and commit intent classification, our experiments reveal that some LLMs are more sensitive to noise than others. However, with MANTRA, the performance of all models in both tasks is improved. MANTRA enables researchers and practitioners to reduce the impact of errors introduced by the dataset in training, saves time in data cleaning and processing, while maximizing the effect of fine-tuning.


翻译:深度学习模型在软件工程任务中的可靠应用依赖于高质量的训练数据。然而,大规模存储库不可避免地会引入噪声或错误标记的样本,从而降低模型的准确性和鲁棒性。尽管噪声标签学习在其他领域已得到广泛研究,但在软件工程领域以及针对软件工程任务的大型语言模型中,相关研究仍较为有限。本研究提出MANTRA,一种多阶段自适应噪声处理框架,将噪声诊断与缓解直接嵌入代码预训练语言模型和代码大型语言模型的微调过程中。我们首先探究了不同噪声水平对模型收敛性和损失轨迹的影响,随后采用基于样本损失动态和高斯混合模型聚类的自适应丢弃策略,以排除持续存在的噪声点,同时保留清洁数据。通过在代码摘要和提交意图分类任务上的实验,我们发现某些大型语言模型对噪声更为敏感。然而,借助MANTRA,所有模型在这两项任务中的性能均得到提升。该框架使研究者和实践者能够降低训练数据集中错误的影响,节省数据清洗与处理时间,同时最大化微调效果。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员