还在悄咪咪抄袭代码的你,已经被这段代码已经出卖了

2018 年 8 月 14 日 量子位
铜灵 编译自 Wired
量子位 出品 | 公众号 QbitAI



悄咪咪抄袭别人代码或者散播恶意程序,可能以后要分分钟暴露了。

近日,美国德雷克塞尔大学的副教授Rachel Greenstadt和乔治华盛顿大学的助理教授Aylin Caliskan发现,机器学习算法通过分析一段代码样本的风格,可以找到程序背后的作者。

就像寻找论坛匿名帖的作者一样,只要训练数据充足,自动化工具就能通过用词、句式和语法推测你是谁,即去匿名化

从貌似千篇一律的代码中找出原作者,这事背后并不简单。

编程“指纹”

机器学习算法找到一段代码作者的过程大致如下——

首先,算法识别代码样本中的所有特征。看似“千码一面”其实也蛮有特色,就像每个人说话选择的单词、组合方式、句子长度等都不同。

锁定特征后,研究人员将特征范围从数十万缩小到大约50个,只留下能真正区分出编程人员是谁的那些。

之后,研究人员不依赖“代码是如何格式化”这样的底层特性,相反,他们创建“抽象语法树”反映代码的底层结构而非任意组件。就像判断word文档是哪个人写的,你得优先查看句子结构,而不是看每个段落是否缩进了。

算法奏效前也需要喂食一些例子训练。如果一白板GitHub用户发布了一个代码片段,这个算法就不一定能够识别背后是谁。不过,也并不需要你用毕生经历来训练算法,只需几个短样本,侦探AI带回家~



这不是Caliskan和Greenstadt的首个“去匿名化”的研究,去年两人发现,即使是存储库网站GitHub上的一小段代码,也足够以高精确度区分出到底是哪个程序员编写的。

论文Git Blame Who?: Stylistic Authorship Attribution of Small, Incomplete Source Code Fragments地址:

https://arxiv.org/pdf/1701.05681.pdf

Caliskan在另一篇论文中表示,只用他们编译的二进制代码就可以去匿名化。在开发人员写完一段代码后,一个名为编译器的程序能将它转换成1和0组成的编码,机器读取后即知出自谁手。

论文When Coding Style Survives Compilation:De-anonymizing Programmers from Executable Binaries地址:

https://arxiv.org/pdf/1512.08546.pdf

而这个研究还有后续,Caliskan和其他研究人员也能将二进制文件转回C++语言,同时保留程序员独特的风格。

为了进行二进制实验,Caliskan还使用了谷歌年度Code Jam比赛的代码样本。在每个人提供8个代码样本的情况下,机器学习算法识别100个程序员的准确率为96%。即使将样本量扩大到600位程序员,算法仍能达到83%的准确率。

总体来说,编程有风格,所有人都会留下“指纹”的。

越熟练,越容易暴露

这项研究要是应用到实际问题中,可以称作是编程界的包青天了。



Caliskan和Greenstadt表示,这个算法不仅能判断学生的编程作业是否抄袭,还能判断开发人员是否违反了雇佣合同中的竞业条款。往大了说,还能帮政府调查恶意程序背后的始作俑者,维护网络安全。

“人们应该意识到,在这种情况下,要百分之百地隐藏自己的身份是非常困难的。”Greenstadt说。

Greenstadt发现,这个算法目前还没遇到对手,即使软件工程师使代码更复杂,也并不能成功隐藏开发人员的独特风格。

相反,有经验的开发人员比新手更容易识别。也不难理解,部分初学者经常从Stack Overflow等网站复制代码下来直接使用,反而不好分辨哪些是他们自己的风格。你越熟练,你的工作就显得越独特。

此外,越是解决棘手的问题,反而越容易暴露身份。在实验中,62名程序员每人解决了七个“简单”问题,算法去匿名化的准确率为90%。但若每人解决7个难题,算法准确率将提高到95%。

在未来,若你想隐藏自己的编程风格,还得学习更复杂的对抗方法……

未来方向

这项研究并没有到此为止,未来,Greenstadt和Caliskan想要继续探索其他因素如何影响一个人的编程风格。

比如同一组织的成员合作时编程风格的变化,不同国家的程序员编程是否有不同的方式。例如,在一项初步研究中,他们发现算法可以区分加拿大和中国开发人员编写的代码样本,准确率超过90%。

此外,面对不同编程语言是否可以用标准化的方法进行推测也是研究人员下一步的讨论的议题。

虽然目前Greenstadt和Caliskan的方法被证明有效,但他们仍然强调,去匿名化仍然是一个神秘的过程。

作者系网易新闻·网易号“各有态度”签约作者


加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多
1

相关内容

《代码整洁之道》:5大基本要点
专知会员服务
50+阅读 · 2020年3月3日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
62+阅读 · 2020年1月18日
近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
85+阅读 · 2019年12月27日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
165+阅读 · 2019年10月28日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
《机器学习实战》代码(基于Python3)
专知
32+阅读 · 2019年10月14日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
教你在Python中实现潜在语义分析(附代码)
数据派THU
8+阅读 · 2018年12月6日
OpenCV特征提取与图像检索实现(附代码)
手把手教TensorFlow(附代码)
深度学习世界
15+阅读 · 2017年10月17日
Arxiv
3+阅读 · 2019年9月5日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
《代码整洁之道》:5大基本要点
专知会员服务
50+阅读 · 2020年3月3日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
62+阅读 · 2020年1月18日
近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
85+阅读 · 2019年12月27日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
165+阅读 · 2019年10月28日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
相关资讯
Top
微信扫码咨询专知VIP会员