Code intelligence plays a key role in transforming modern software engineering. Recently, deep learning-based models, especially Transformer-based large language models (LLMs), have demonstrated remarkable potential in tackling these tasks by leveraging massive open-source code data and programming language features. However, the development and deployment of such models often require expertise in both machine learning and software engineering, creating a barrier for the model adoption. In this paper, we present CodeTF, an open-source Transformer-based library for state-of-the-art Code LLMs and code intelligence. Following the principles of modular design and extensible framework, we design CodeTF with a unified interface to enable rapid access and development across different types of models, datasets and tasks. Our library supports a collection of pretrained Code LLM models and popular code benchmarks, including a standardized interface to train and serve code LLMs efficiently, and data features such as language-specific parsers and utility functions for extracting code attributes. In this paper, we describe the design principles, the architecture, key modules and components, and compare with other related library tools. Finally, we hope CodeTF is able to bridge the gap between machine learning/generative AI and software engineering, providing a comprehensive open-source solution for developers, researchers, and practitioners.


翻译:代码智能在现代软件工程转型中发挥着关键作用。近期,基于深度学习的模型,特别是基于Transformer的大语言模型(LLMs),通过利用海量开源代码数据和编程语言特性,在处理此类任务中展现出巨大潜力。然而,此类模型的开发与部署通常需要同时具备机器学习和软件工程领域的专业知识,这为模型的实际应用设置了障碍。本文提出CodeTF——一个面向先进代码大语言模型与代码智能任务的开源Transformer库。遵循模块化设计与可扩展框架原则,我们通过统一接口设计CodeTF,使其能够支持跨模型类型、数据集与任务的快速调用与开发。本库集成了一系列预训练代码大语言模型与主流代码基准测试工具,包括:用于高效训练与部署代码大语言模型的标准化接口,以及支持特定语言解析器和代码属性提取功能的数据处理工具。本文详细阐述了该库的设计原则、整体架构、核心模块与组件,并与其他相关库工具进行了对比分析。最终,我们希望CodeTF能够弥合机器学习/生成式人工智能与软件工程领域之间的鸿沟,为开发者、研究人员及从业者提供全面的开源解决方案。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
32+阅读 · 5月18日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员