Answering a programming question using only its title is difficult as salient contextual information is omitted. Based on this observation, we present a corpus of over 40,000 StackOverflow question texts to be used in conjunction with their corresponding intents from the CoNaLa dataset (Yin et al., 2018). Using both the intent and question body, we use BART to establish a baseline BLEU score of 34.35 for this new task. We find further improvements of $2.8\%$ by combining the mined CoNaLa data with the labeled data to achieve a 35.32 BLEU score. We evaluate prior state-of-the-art CoNaLa models with this additional data and find that our proposed method of using the body and mined data beats the BLEU score of the prior state-of-the-art by $71.96\%$. Finally, we perform ablations to demonstrate that BART is an unsupervised multimodal learner and examine its extractive behavior. The code and data can be found https://github.com/gabeorlanski/stackoverflow-encourages-cheating.


翻译:仅使用标题的编程问题很难解答,因为没有明显的背景资料。根据这项观察,我们提供了40,000多份StackOverproll问题文本,与CoNaLa数据集的相应意图一起使用(Yin等人,2018年)。我们利用意图和问题体,利用BART为这项新任务确定基线BLEU分数34.35。我们发现,通过将已开采的CoNaLa数据与标签数据合并,实现35.32 BLEU分,进一步改进了2.8美元。我们用这一额外数据评估了以前最先进的CoNaLa模型,发现我们拟议的使用尸体和所探测数据的方法比BLEU前的分数高出71.96美元。最后,我们做了一些推理,以证明BART是一个不受监督的多式联运学习者,并检查其采掘行为。代码和数据可以找到 https://github.com/gaberlanski/stackoverflow-encourages-chestating。

0
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
专知会员服务
53+阅读 · 2020年9月7日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
32+阅读 · 2019年10月18日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
相关论文
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
7+阅读 · 2018年1月30日
Top
微信扫码咨询专知VIP会员