【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展 - 专知VIP

会员服务 ·

11

大型语言模型 · 代码大模型 · 博士论文 ·

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大型语言模型（Large Language Models, LLMs）已深刻改变了代码相关任务的实现方式。然而，大多数代码 LLM 忽视了编程语言中的结构性模式。本文围绕具备代码结构感知能力的 LLM展开研究，提出了多种新颖的方法、基准测试和预训练策略，表明显式的结构建模能显著提升 LLM 的编程能力。首先，我们提出 ADELT，一种可将代码结构转换与 API 关键字翻译解耦的转译器（transpiler）。ADELT 在无需平行语料的条件下实现了最先进的跨语言代码转译效果，展示了结构感知的重要性。为了严格评估模型的结构理解能力，我们构建了 SAFIM，一个面向语法感知填充（Syntax-Aware Fill-in-the-Middle, FIM）任务的基准数据集。我们对15个主流 LLM 进行了评测，挑战了“大模型 = 高性能”的观点，强调预训练策略与数据质量的重要性。SAFIM 有望成为该领域未来研究的基础工具。随后，我们提出了两种结构感知的预训练范式。AST-T5 将抽象语法树（AST）集成进 T5 风格的编码器-解码器模型，在代码修复和转译任务中表现优于现有基线方法。而针对仅解码架构，我们提出 AST-FIM，通过 AST 引导的掩码机制更好地平衡了填充任务（FIM）与从左至右（Left-to-Right, L2R）生成之间的权衡，在保持 L2R 能力的同时，在代码补全任务上显著优于传统方法。综上所述，我们证明了代码结构感知能够增强 LLM 在代码生成、理解与转换方面的能力。本文的贡献涵盖转译框架、评测基准与预训练技术，构建了一条将代码结构整合进 LLM 的研究路径图。

成为VIP会员查看完整内容

13

相关内容

大型语言模型

大型语言模型

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

专知会员服务

9+阅读 · 5月17日

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

17+阅读 · 4月4日

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

专知会员服务

28+阅读 · 3月12日

【HKU博士论文】深度学习方法在时间序列正常性建模与生成预测中的应用

【HKU博士论文】深度学习方法在时间序列正常性建模与生成预测中的应用

专知会员服务

24+阅读 · 1月15日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

26+阅读 · 1月5日

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【ETHZ博士论文】机器学习代码: 安全性与可靠性

【ETHZ博士论文】机器学习代码: 安全性与可靠性

专知会员服务

19+阅读 · 2024年10月25日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

28+阅读 · 2024年9月24日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

28+阅读 · 2024年8月16日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

62+阅读 · 2020年7月31日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

开放知识图谱

30+阅读 · 2019年7月5日

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

开放知识图谱

41+阅读 · 2019年7月2日

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

开放知识图谱

17+阅读 · 2019年1月5日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于路径全局结构可用性特征的混序制造服务组合建模理论与优选方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

171+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

大型语言模型

代码大模型

相关VIP内容

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

【EPFL博士论文】用于高效语言建模的增强型架构与优化方法

专知会员服务

9+阅读 · 5月17日

【阿姆斯特丹博士论文】带约束学习的优化算法

【阿姆斯特丹博士论文】带约束学习的优化算法

专知会员服务

17+阅读 · 4月4日

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

专知会员服务

28+阅读 · 3月12日

【HKU博士论文】深度学习方法在时间序列正常性建模与生成预测中的应用

【HKU博士论文】深度学习方法在时间序列正常性建模与生成预测中的应用

专知会员服务

24+阅读 · 1月15日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

26+阅读 · 1月5日

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

【斯坦福博士论文】探索自监督学习中对比学习的理论基础

专知会员服务

34+阅读 · 2024年12月21日

【ETHZ博士论文】机器学习代码: 安全性与可靠性

【ETHZ博士论文】机器学习代码: 安全性与可靠性

专知会员服务

19+阅读 · 2024年10月25日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

28+阅读 · 2024年9月24日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

28+阅读 · 2024年8月16日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

126页ppt《AI应用（AI Agent）开发新范式》！

基于深度神经网络的视频分析中的效率优化技术综述：处理系统、算法与应用

WWW2025 | KAG：一种大模型知识增强生成框架

用于时间序列预测的扩散模型：综述

相关资讯

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

62+阅读 · 2020年7月31日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

开放知识图谱

30+阅读 · 2019年7月5日

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

开放知识图谱

41+阅读 · 2019年7月2日

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

开放知识图谱

17+阅读 · 2019年1月5日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

相关基金

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于路径全局结构可用性特征的混序制造服务组合建模理论与优选方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

171+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员