Benchmark datasets have a significant impact on accelerating research in programming language tasks. In this paper, we introduce CodeXGLUE, a benchmark dataset to foster machine learning research for program understanding and generation. CodeXGLUE includes a collection of 10 tasks across 14 datasets and a platform for model evaluation and comparison. CodeXGLUE also features three baseline systems, including the BERT-style, GPT-style, and Encoder-Decoder models, to make it easy for researchers to use the platform. The availability of such data and baselines can help the development and validation of new methods that can be applied to various program understanding and generation problems.


翻译:基准数据集对加速编制方案语言任务的研究具有重大影响。在本文件中,我们引入了CodXGLUE,这是一个基准数据集,用于促进机器学习研究,以促进了解和生成方案。 CodXGLUE包括一个跨14个数据集的10项任务汇编和一个模型评估和比较平台。 CodXGLUE还包含三个基准系统,包括BERT型、GPT型和Encoder-Decoder型模型,使研究人员能够方便地使用该平台。这些数据和基线的提供有助于开发和验证可用于各种方案理解和生成问题的新方法。

0
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
专知会员服务
118+阅读 · 2019年12月24日
【课程】纽约大学 DS-GA 1003 Machine Learning
专知会员服务
46+阅读 · 2019年10月29日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
5+阅读 · 2018年10月16日
Arxiv
0+阅读 · 2021年3月30日
VIP会员
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
5+阅读 · 2018年10月16日
Top
微信扫码咨询专知VIP会员