Deep Neural Networks (DNN) are increasingly commonly used in software engineering and code intelligence tasks. These are powerful tools that are capable of learning highly generalizable patterns from large datasets through millions of parameters. At the same time, training DNNs means walking a knife's edges, because their large capacity also renders them prone to memorizing data points. While traditionally thought of as an aspect of over-training, recent work suggests that the memorization risk manifests especially strongly when the training datasets are noisy and memorization is the only recourse. Unfortunately, most code intelligence tasks rely on rather noise-prone and repetitive data sources, such as GitHub, which, due to their sheer size, cannot be manually inspected and evaluated. We evaluate the memorization and generalization tendencies in neural code intelligence models through a case study across several benchmarks and model families by leveraging established approaches from other fields that use DNNs, such as introducing targeted noise into the training dataset. In addition to reinforcing prior general findings about the extent of memorization in DNNs, our results shed light on the impact of noisy dataset in training.


翻译:深神经网络(DNN)在软件工程和代码智能任务中日益被广泛使用,这些是能够从大型数据集到数百万参数中学习高度通用模式的有力工具。与此同时,培训DNNS意味着走刀边缘,因为其巨大的能力也使他们容易对数据点进行记忆化。虽然传统上被认为是过度培训的一个方面,但最近的工作表明,当培训数据集吵闹和记忆化是唯一的求助手段时,记忆化风险就显得特别明显。不幸的是,大多数代码情报任务都依赖于噪音易发性和重复性的数据源,如GitHub,由于它们的规模巨大,因此无法进行人工检查和评估。我们通过对几个基准和模范家庭进行案例研究,评估神经编码情报模型中的记忆化和概括化趋势,利用其他使用DNP的领域的既定方法,例如将有针对性的噪音引入培训数据集。此外,除了加强以前对DNPS的记忆化程度的一般性发现外,我们还通过培训中热度数据的影响来评估我们的结果。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年8月8日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Arxiv
0+阅读 · 2021年8月17日
A Survey on Edge Intelligence
Arxiv
51+阅读 · 2020年3月26日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
The Measure of Intelligence
Arxiv
6+阅读 · 2019年11月5日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
相关论文
Arxiv
0+阅读 · 2021年8月17日
A Survey on Edge Intelligence
Arxiv
51+阅读 · 2020年3月26日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
The Measure of Intelligence
Arxiv
6+阅读 · 2019年11月5日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员