重新定义程序员职业,Facebook推出代码推荐工具Aroma

2019 年 4 月 10 日 量子位
乾明 发自 凹非寺 
量子位 出品 | 公众号 QbitAI

解放程序员,Facebook是认真的。

这一社交网络巨头在其官方博客上宣布,推出面向程序员的工具Aroma

直击程序员想实现功能,而不知道如何写代码的痛点。

它能帮助程序员轻松地找到可以“参考使用”的代码,节省他们日常开发工作流程中的时间和精力。

比如,一个安卓程序员想要了解其他人如何解码手机中的bitmap,他可以使用下面的这些代码直接进行搜索:

Bitmap bitmap = BitmapFactory.decodeStream(input);

然后,Aroma会给出一些代码推荐:

final BitmapFactory.Options options = new BitmapFactory.Options();
options.inSampleSize = 2;
// ...
Bitmap bmp = BitmapFactory.decodeStream(isnull, options);

这段代码来自与五个实现类似功能的代码,但是去除了相关细节,以便程序员更好地参考。

除此之外,Aroma也能够集成在编码环境中。

Facebook表示,使用这一工具,程序员再也不用像原来那样,自己手动浏览几十个代码搜索结果了。

哪怕代码库非常大,它也能在几秒钟内给出推荐,并且不需要提前进行模式挖掘。

现在,Facebook已经将其用到了自己内部代码库中,并为其一些开源项目创建了Aroma版本。

这一工具亮相之后,便引发了巨大的关注。

甚至有人在Twitter上评论称,可以重新定义程序员这一职业。

Facebook是如何做到的?

给程序员推荐代码

用Aroma给程序员推荐代码,主要分为3个阶段:

第一,基于特征的搜索。

首先,Aroma会解析语料库中的每个代码,并创建其解析树,并将代码集索引为稀疏矩阵。

然后,从每个代码的解析树中提取一组结构特征。这些结构特征都是经过精心选择的,可以捕捉每个代码的用法、调用方法和结构信息。

进而根据每个代码的特点,为其创建稀疏向量。

最后,所有代码的特征向量构成索引矩阵,用于搜索检索。

当一个程序员编写新的代码时,Aroma会以上述的方式创建一个稀疏向量,并将该向量与包含所有现有代码的特征向量的矩阵相乘。

点积最高的前1000个代码会被检索出来,作为推荐代码的候选。

尽管代码语料库可以包含数百万种代码,但由于稀疏向量和矩阵的点积能够非常高效的实现,这种检索的速度会很快。

第二,重新排序和聚类。

通过检索得到推荐代码的候选集之后,接下来就是对其进行聚类。为了做到这一点,Aroma要先根据候选的各个代码和查询代码的相似性来对它们进行重新排序。

因为稀疏向量只包含关于存在哪些特征的抽象信息,所以点积分数低估了代码之间的实际相似性。

因此,Aroma对方法语法树进行修剪,去掉方法主体中不相关的部分,只保留与查询片段最匹配的部分,并根据候选代码片段与查询的实际相似性对其重新排序。

在获得了最后的排序列表之后,Aroma会运行一个迭代的聚类算法来寻找相似的代码片段,并在创建代码时推荐额外的代码语句。

第三,用交叉算法创建代码进行推荐。

交叉算法的工作原理,是将所有推荐代码中的第一个代码片段作为“基础”代码,然后与其余的代码进行对比,迭代地对其进行“修剪”。

比如下面的这几段代码,每一个都有特定于其项目的代码,但都包含公共的代码。

第一段代码:

InputStream is = ...;
final BitmapFactory.Options options = new BitmapFactory.Options();
options.inSampleSize = 2;
Bitmap bmp = BitmapFactory.decodeStream(isnull, options);
ImageView imageView = ...;
imageView.setImageBitmap(bmp);
// some more code

第二段代码:

BitmapFactory.Options options = new BitmapFactory.Options();
while (...) {
  in = ...;
  options.inSampleSize = 2;
  options.inJustDecodeBounds = false;
  bitmap = BitmapFactory.decodeStream(innull, options);
}

基于上述的方法,Aroma会对第一段代码和第二段代码进行比较,来找到公共代码。第一段代中关于ImageView的代码,没有出现在第二段代码中,因此将被删除。结果如下所示:

InputStream is = ...;
final BitmapFactory.Options options = new BitmapFactory.Options();
options.inSampleSize = 2;
Bitmap bmp = BitmapFactory.decodeStream(isnull, options);

然后,将得到代码与第三段代码,第四段代码进行比较……

修剪之后剩下的代码,就是所有方法中常见的代码,它将成为最后被推荐的代码。

其他被推荐的代码,也是以这样的过程创建出来的。

此外,Aroma的算法也可以确保这些推荐彼此之间有很大的不同,因此程序员可以看到几个不同的代码,来学习各种各样的编程模式。

程序员们的担忧

虽然这一工具受到了不少程序员的好评, 但也有一些程序员表达了不一样的观点。

有人在Hacker News上表示,这也许就是自己作为程序员职业生涯结束的开始。

也有人说,这个工具似乎是试图强迫机器学习解决实际上没有人有问题的例子。

他说,很多人搜索习惯用法的主要用例,就是知道如何进行高级别的重构,而不是获得相似的代码。

此外,也有人担忧有人写错了代码,它会不会在其他代码库中大肆传播……

你觉得呢?这一工具,对于程序员来说,影响几何?欢迎在评论区给出你的看法。

传送门

Aroma论文链接:

Aroma: Code Recommendation via Structural Code Search
https://arxiv.org/abs/1812.01158

—  —

订阅AI内参,获取AI行业资讯

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;


欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



登录查看更多
1

相关内容

程序员可以指在程序设计与互联网某个专业领域中的专业人士或是从事软件撰写,程序开发、维护的专业人员。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
【经典书】数据结构与算法C++,第二版,738页pdf
专知会员服务
166+阅读 · 2020年3月27日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
PyTorch 官方推荐了一份 60 分钟的深度学习指南
技术最前线
20+阅读 · 2019年10月17日
已删除
AI掘金志
7+阅读 · 2019年7月8日
一个牛逼的 Python 调试工具
机器学习算法与Python学习
15+阅读 · 2019年4月30日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
10个深度学习软件的安装指南(附代码)
数据派THU
17+阅读 · 2017年11月18日
码农日常工具推荐
架构文摘
4+阅读 · 2017年9月26日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
6+阅读 · 2018年6月21日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
【经典书】数据结构与算法C++,第二版,738页pdf
专知会员服务
166+阅读 · 2020年3月27日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
相关资讯
PyTorch 官方推荐了一份 60 分钟的深度学习指南
技术最前线
20+阅读 · 2019年10月17日
已删除
AI掘金志
7+阅读 · 2019年7月8日
一个牛逼的 Python 调试工具
机器学习算法与Python学习
15+阅读 · 2019年4月30日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
10个深度学习软件的安装指南(附代码)
数据派THU
17+阅读 · 2017年11月18日
码农日常工具推荐
架构文摘
4+阅读 · 2017年9月26日
Top
微信扫码咨询专知VIP会员