Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpus that is large-scale and multi-language: CodeSearchNet. Our results show that both our tree-serialized representations and multimodal learning model improve the performance of neural code search. Last, we define two intuitive quantification metrics oriented to the completeness of semantic and syntactic information of the code data.


翻译:语义代码搜索是指为特定自然语言查询找到具有语义相关性的代码片断。 在最先进的方法中,代码和查询之间的语义相似性被量化为它们在共享矢量空间中的表达距离。在本文中,为了改进矢量空间,我们引入了简化的 AST 格式的树木序列化方法,并为代码数据构建了多式表达方式。我们使用一个大规模和多种语言的单一体进行广泛的实验: CodeSearchNet。我们的结果显示,我们的树木序列化表达方式和多式学习模式都改善了神经代码搜索的性能。最后,我们定义了两种直观量化指标,以代码数据的语义和合成信息的完整性为导向。

0
下载
关闭预览

相关内容

【如何做研究】How to research ,22页ppt
专知会员服务
109+阅读 · 2021年4月17日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
40+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
14+阅读 · 2021年3月10日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
3+阅读 · 2019年8月26日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关资讯
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Top
微信扫码咨询专知VIP会员