近几年来,AI 代码生成器十分流行,从OpenAI的Codex再到DeepMind的AlphaCode。DeepMind甚至表示,AlphaCode在Codeforces(一个编程竞赛平台)举办的编程竞赛(有5000多名参赛者)中,取得了平均排名前54.3%的成绩,并且声称它是首批可与人类程序员竞争的代码生成系统之一。但无论是Codex还是AlphaCode,截止目前都还没有对外开源。
卡内基梅隆大学(Carnegie Mellon University,以下简称CMU)的研究人员表示,“大型科技公司没有公开发布他们的模型,这确实阻碍了科学研究和这种大型语言模型代码的应用。”为此,几个来自CMU的研究人员开发了PolyCoder——一个具有 27B 参数,基于 GPT-2 架构且开源的自动代码生成器模型,在12种编程语言的249GB代码数据库中进行训练。
12种编程语言代码集
研究人员声称,PolyCoder在编写C语言方面的表现优于所有的已知模型(包括Codex)。
和其他开源模型比较,PolyCoder在C、JavaScript、Rust、Scala和TypeScript方面的表现都比类似模型GPT-Neo 2.7B要好。
但是在C语言之外的其他十一种语言中,所有其它开源模型包括PolyCoder可能要略逊Codex。
作为一个开源的 AI 代码生成器,PolyCoder算是取得了不错的成绩。但研究人员担心,像PolyCoder这样的模型可能会提示生成有漏洞的程序,即使是带有一些难以检测的安全漏洞程序。而且他们还担心未来其对手可以在代码生成模型中“隐藏”恶意行为,所以他们建议将Codex大小的模型开源,这不仅可以避免上述情况的发生,还有另一个额外的好处,即开发人员可以通过微调对模型进行个性化操作,这比从头训练模型的成本低很多。
其研究人员还表示,希望能够通过开源,节约资源以及促进科技研究的发展。
参考资料:
https://arxiv.org/pdf/2202.13169.pdf
https://venturebeat.com/2022/03/04/researchers-open-source-code-generating-ai-they-claim-can-beat-openais-codex/
《新程序员001-004》全面上市,对话世界级大师,报道中国IT行业创新创造