终究还是来了,AI卷革程序员!!DeepMind发布媲美普通程序员的AlphaCode

2022 年 2 月 3 日 专知
转载机器之心报道
编辑:张倩、蛋酱

世界本来已经很卷,有了 AI 加入之后,卷上加卷……


太卷了!

在国内欢度春节之时,DeepMind 与 OpenAI 两个知名 AI 研究机构分别发布重要研究成果:DeepMind 发布了基于 Transformer 模型的 AlphaCode,可以编写与人类相媲美的计算机程序;同时,OpenAI 开发的神经定理证明器成功解出了两道国际奥数题。


有没有觉得 AI 攻克的这两个领域很熟悉?没错,就在 2021 年,OpenAI 发布了 AI 代码补全工具 GitHub Copilot ,并公布了背后的技术 CodeX。同样,在去年下半年,DeepMind 也公布了他们解决数学难题的 AI 研究成果,并登上了 Nature。

虽然两家研究机构的新成果为 AI 解决老问题提供了新思路,但也不得不让网友感叹,AI 领域太卷了!

来源:网友微博截图

击败 46% 参赛者的 AlphaCode

在最近的一篇论文中,DeepMind 的研究者介绍了 AlphaCode。AlphaCode 使用基于 Transformer 的语言模型实现大规模的代码生成,并且将其编写为程序。


论文连接:https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf

研究者将 AlphaCode 放在 Codeforces 挑战中进行了测试,Codeforces 是一个具有竞争力的编程平台,它类似于国际象棋中使用的 Elo 评级系统,每周分享编程挑战和问题排名。不同于编程人员在打造商业应用程序时可能面临的任务,Codeforces 的挑战更加独立,需要对计算机科学中的算法和理论概念有更广泛的了解,一般是结合逻辑、数学和编码专业知识的非常专业的难题。

AlphaCode 针对 Codeforces 网站上 5000 名用户解决的 10 项挑战进行了测试,总体排名位于前 54.3%,也就是说它击败了 46% 的参赛者 。DeepMind 估计,AlphaCode 系统的 Codeforces Elo 为 1238,使其过去六个月内在该网站上竞争的用户中排名前 28%。


举个例子,在测试 AlphaCode 的一项挑战中,试题要求参赛者找到一种方法,使用一组有限的输入将一个随机、重复的 s 和 t 字母字符串转换为另一个相同字母的字符串。例如,竞争对手不能只输入新字母,而必须使用「backspace」命令删除原始字符串中的几个字母。对于 AlphaCode 来说,这只是中等难度的挑战:


其中十个挑战以与人类完全相同的格式输入 AlphaCode。然后,AlphaCode 生成大量可能的答案,并通过运行代码和检查输出来筛选这些答案,就像人类竞争对手一样。AlphaCode 论文的联合负责人 Yujia Li 和 David Choi 表示:「整个过程是自动的,无需人工选择最佳样本。」

要想在 Codeforces 的挑战中脱颖而出,原本不是一件容易的事。AlphaCode 项目开展于两年多前,随着大规模 Transformer 模型的进步与大规模采样、滤波技术的结合,DeepMind 的研究者已经在 AI 能够解决的问题数量上取得了重大进展。

受到疫情的影响,项目的大部分工作都是在家完成的。

研究者在选定的公共 GitHub 代码上预训练该模型,并在相对较小的竞赛编程数据集上对其进行微调。在评估期间,研究者为每个问题创建了大量的 C++ 和 Python 程序,且数量级比以前的工作要大。然后对这些解决方案进行筛选、聚类和重新排序,将这些解决方案分配到一个由 10 个候选程序组成的小集合中,并提交给外部评估。这个自动化系统取代了竞争对手的调试、编译、通过测试和最终提交的反复试验过程。


总体来说,AlphaCode 的排名在竞争对手中大致相当于中位数。虽然远远没能赢得比赛,但这个结果代表了人工智能解决问题能力的实质性飞跃。这一进步证明了深度学习模型在需要批判性思维的任务中的潜力。DeepMind 指出,AlphaCode 目前的技能组合目前仅适用于竞赛性质的编程领域,但它的能力为创建未来工具打开了新的大门,这些工具使编程变得更加容易,并且有朝一日完全自动化。

许多其他公司正在开发类似的应用程序。对于终端的用户来说,这些系统就像 Gmail 的 Smart Compose 功能一样工作,提供一些关于你正在编写的任何内容的建议。

近年来,AI 编程系统的开发取得了很大进展,但这些系统还远未准备好接管人类程序员的工作。他们生成的代码通常有问题,而且由于系统通常是在公共代码库上进行训练的,所以有时会复制受版权保护的材料。

在一项关于 GitHub Copilot AI 编程工具的研究中,研究人员发现其输出的代码约有 40% 包含安全漏洞。安全分析师甚至建议,不良行为者可以故意编写代码并与隐藏的后门(backdoor)在线共享代码,然后这些代码可能被用来训练 AI 程序,将这些错误插入到未来的程序中。

像这样的挑战意味着 AI 编程系统可能会慢慢融入程序员的工作中——换句话说,他们要进行学徒训练,从助理开始做起,在被信任能够自主执行工作之前,AI 给出的建议都要受到怀疑。


目前,DeepMind 已在 GitHub 上发布了竞赛级编程问题和解决方案的数据集,其中也包括广泛的测试的数据,以确保通过这些测试的程序是正确的,这是目前数据集所缺乏的一个关键特性。DeepMind 希望这个基准能够推动在解决问题和代码生成方面的进一步创新。

GitHub 项目地址:https://github.com/deepmind/code_contests

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“AlphaCode” 就可以获取DeepMind发布媲美普通程序员的AlphaCode》专知下载链接


专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资源
登录查看更多
0

相关内容

6G物理层AI关键技术白皮书(2022)
专知会员服务
40+阅读 · 2022年3月21日
算法通关手册(LeetCode)
专知会员服务
156+阅读 · 2022年1月13日
专知会员服务
53+阅读 · 2021年7月21日
专知会员服务
55+阅读 · 2021年4月7日
【经典书】C++编程:从问题分析到程序设计,1491页pdf
专知会员服务
58+阅读 · 2020年8月11日
【DeepMind】强化学习教程,83页ppt
专知会员服务
147+阅读 · 2020年8月7日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关VIP内容
6G物理层AI关键技术白皮书(2022)
专知会员服务
40+阅读 · 2022年3月21日
算法通关手册(LeetCode)
专知会员服务
156+阅读 · 2022年1月13日
专知会员服务
53+阅读 · 2021年7月21日
专知会员服务
55+阅读 · 2021年4月7日
【经典书】C++编程:从问题分析到程序设计,1491页pdf
专知会员服务
58+阅读 · 2020年8月11日
【DeepMind】强化学习教程,83页ppt
专知会员服务
147+阅读 · 2020年8月7日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员