Copilot要摊官司了！工作20年老程序员重新激活律师证，发起集体诉讼，还喊网友加入

会员服务 ·

Copilot要摊官司了！工作20年老程序员重新激活律师证，发起集体诉讼，还喊网友加入

2022 年 10 月 22 日 量子位

丰色 Alex 发自凹非寺
量子位 | 公众号 QbitAI

距离正式发布才刚4个月，GitHub Copilot即将迎来一场集体诉讼！

发起人是一位干了20多年的程序员，来自美国的马修·巴特里克（Matthew Butterick）。

他早在今年6月就“捶”了Copilot的开源许可证问题。

现在，马修终于决定迈出实质性的一步，在迅速激活自己的律师资格证后，和其他几位律师一起合作“声讨”Copilot。

（这位老哥身兼数职，除了这俩身份还是设计师）

他在一篇专门的个人博客中细究了Copilot涉及的两大法律问题，并指出Copilot不仅是“偷代码”那么简单，还会对整个开源社区造成诸多不良影响：

或许你不介意它未经许可就用了你的开源代码，但如果它也将由此抹去你和开源社区之间的联结呢？

（若不明白这句话具体何义，请接着往下看~）

目前，这篇博客已在推特上得到了不少关注和转发。

相关消息还引爆了Hacker News社区。

Copilot有哪些问题？

先给不熟悉的朋友简单介绍一下Copilot。

它是内嵌在Visual Studio等IDE中的一个代码自动补全工具，支持多种主流编程语言。

根据已写的内容，它可以给出后续代码建议——不过和我们见到的普通自动补全功能不同，它可以生成诸如整个函数体这样的大段代码。

今年6月，Copilot在经过一年的免费试用后正式转为付费工具，定价为10美元/月（人民币约67元），年付则是100美元/年（人民币约669元）。

它的到来，让很多人都感叹入门级别的程序员没有用了。

不过问题也随之而来。

Copilot强大的编码能力来自于一个叫做Codex的AI，由OpenAI开发并授权给微软。

Codex是怎么训练的呢？

尽管微软含糊其辞，表示它的训练源是数亿行公共代码；但Copilot的研究员还是道出了实情，都是出自于Github上的公共仓库。

好了，马修要状告Copilot的第一个问题，也就跟Copilot的训练过程有关。

马修表示，微软和OpenAI要想用Github上的开源仓库进行训练，要么遵守它们的开源许可证协议，要么「合理使用」。

如果是前者，微软和OpenAI应该至少发布大量的attribution来获得许可，但是大家没有看到。

他们将自己归到了后者，如GitHub前CEO Nat Friedman在Copilot的技术预览会所说：

在公开数据上训练（机器学习）系统属于合理使用。

不过，软件自由保护组织（Software Freedom Conservancy，SFC）不同意这一“空口无凭”的说辞，要求他们提供法律依据来支撑自己的立场。

但是迟迟没有得到答案。

马修表示，这就是因为微软和OpenAI给不出来啊。

第二个可能违法的问题，则是关于Copilot的使用。

马修指出，微软在面对Copilot用户时对自己进行了免责。

微软将Copilot给的代码称为“建议”，称自己不从中主张任何权力，也不对它生成的代码作任何关于正确性、安全性和产权相关的保证。

一旦你接受了Copilot给出的“建议”，如果出了问题都由你自己负责。

乍一听还好，可是不止一人发现Copilot一字不差地把原作者的代码当成“建议”丢给用户，连注释都一并奉送的那种。

这要是直接采纳可就要涉及许可问题了，可是Copilot根本不会注明这些代码的来源，又该让用户如何遵守协议呢？

以上，便是马修要控诉的两大问题。

除此之外，他还表达了对开源社区文化的担忧。

他认为，Copilot的所作所为直接在程序员和开源社区之间砌起了一堵墙，让程序员只管任意享用现成代码，远离源代码本身，失去与源项目的问题讨论、bug跟踪等互动和贡献。

而这对开源社区将是一个永久的、痛苦的损失。

另一边，对于“无故”奉献了训练代码的开源作者来说，他们俨然被当作了资源的生产者。

马修将这类人比喻成奶牛，由于Copilot对他们的项目没有任何贡献，他表示这奶牛是只出奶却不被提供食物和住所的奶牛。

因此，他也将Copilot的本质，比喻为寄生虫。

此外，你可能听闻有人出于愤怒将自己的代码搬出了GitHub。

马修告诉大家：其实微软通过声称训练AI是合理使用，正在搜索网上任何可以使用的公共代码进行训练。

可以说是“逃无可逃”。

于是在避免伤害变得无法弥补之前，马修声称必须弄清Copilot的合法性。

他呼吁以下几类人群加入他们的调查和诉讼队列：

当然在博客最后，马修还是特别声明：

我本身并不反对AI辅助编程工具。

他提到，Copilot本可以也很容易变得“友好”，比如让作者自愿参与，或者有偿征用。

质疑声从未停止

这次，看到有人带头牵起对Copilot的集体诉讼，许多程序员以及计算机相关领域的大佬们纷纷表示：

“附议！”

消息出来之后，德克萨斯A&M大学的一位计算机科学教授，并兼任ACM、IEEE和SIAM会员的Tim Davis顺势发推分享了自己的“遭遇”：

Copilot没有拿到LGPL许可证（函数库公共许可证），就擅自发出了大段我的版权代码。

并附上了证据：

△ 左为Copilot给出的代码，右为他自己的代码

有网友表示：

Copilot的这种行为属于是完全不尊重开源社区。

还有网友犀利地指出，在模型训练过程中，所谓的AI“学习”，本身就是一种被勉强挪用过来的概念：

因为据现有法律，人类阅览受版权保护的资料用于自己学习，是合法的；然后各大科技公司说，AI也会“学习”，所以AI也没有违反版权法。

但是AI并不像人类那样自主（尽管很多公司称AI很自主），这些模型其实都被背后的组织或公司等操控着，所以用“学习”来描述AI做的事并不太准确。

而且真人其实也经常出现会违反版权法等问题……

所以，要定义AI在“学习”过程中到底是否“抄袭”了，以及存在具体哪种侵权行为，是一个非常棘手的问题，还需要更多的讨论和明确规定。

诚然，Copilot从去年的内测阶段起，其出色的编程能力确实惊艳了不少人。

而且这个AI后来还学会了“反向输出”：

用“人话”来讲解某一段代码有什么用，帮助屏幕前的人看懂代码。

但另一方面，不只现在，其实从Copilot刚出来开始，一直就有众多质疑和反对的声音，核心都不外乎马修在前文举证的那两点。（即这个AI的训练和使用）

也正如前文所说，除了个人，还有SFC等组织也在声讨Copilot。

而在今年6月份，GitHub宣布Copilot结束内测，开启收费模式后，更是将大家的不满情绪拔到了最高点。

除了免费引流再收费的商业模式让人反感外，大家一致认为这的AI用开发者写的代码来训练，不应该回过头向再开发者收费：

每一个曾向GitHub提交过代码的人都应免费使用！

于是，Copilot正式版立刻遭到了抵制——

SFC不仅自己要退出GitHub，而且还号召其他软件开发商同样照做。

在VS Code插件市场上，Copilot原本一直是5星好评，也一下子涌入了不少一星差评。

One More Thing

本次事件还让人把目光延伸到了AI绘画领域，有网友认为：

这种工具同样也涉及侵权等问题。

最后，对于“大伙儿现在联合把Copilot告上法庭”这件事，你觉得赢的胜算大吗？

参考链接：
[1]https://githubcopilotinvestigation.com/
[2]https://twitter.com/DocSparse/status/1581461734665367554
[3]https://news.ycombinator.com/item?id=33240341

— 完 —

MEET 2023 大会启动

邀你共论智能产业穿越周期之道

今年12月，MEET2023智能未来大会将再度邀请智能科技产业、科研、投资领域大咖嘉宾，共同探讨人工智能行业破局之道。

欢迎智能科技企业参会，分享突破性成果，交流时代级变革，共襄盛会！点击链接或下方图片查看大会详情：

量子位「MEET 2023智能未来大会」启动，邀你共论智能产业穿越周期之道

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

代码

关注 0

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

《评估爆炸超压相关的创伤性脑损伤的工具和过程》美国陆军ARL 2022最新53页技术报告（含代码）

专知会员服务

13+阅读 · 2022年10月30日

吴恩达知乎问答：如何系统学习机器学习？

专知会员服务

21+阅读 · 2022年4月10日

AI+军事？美国GAO最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知会员服务

291+阅读 · 2022年3月7日

ICML2021接受论文列表出炉！1184篇论文都在这了！

专知会员服务

92+阅读 · 2021年6月3日

持续学习最新综述论文，29页pdf

专知会员服务

121+阅读 · 2021年4月22日

是时候学习机器学习系统设计了！斯坦福CS 329S开课，课件、笔记同步更新

专知会员服务

40+阅读 · 2021年1月27日

【干货书】R语言书: 编程和统计的第一课程，

专知会员服务

118+阅读 · 2020年5月9日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【快讯】CVPR2020结果出炉，1470篇上榜，你的paper中了吗？

专知会员服务

51+阅读 · 2020年2月24日

【CVPR 2019 | tutorial】视觉识别Visual Recognition and Beyond，Facebook|Ross Girshick，Justin Johnson（李飞飞高徒）

专知会员服务

29+阅读 · 2019年6月16日

索赔 649 亿！GitHub Copilot 惹上官司，被指控侵犯代码版权, 是开源社区“寄生虫”

InfoQ

1+阅读 · 2022年11月14日

动动嘴就能写代码了！Copilot测试新功能“嘿，GitHub”，告别键盘编码

InfoQ

0+阅读 · 2022年11月11日

让程序员动嘴写代码，Copilot测试新功能「嘿，GitHub！」

机器之心

0+阅读 · 2022年11月10日

程序员早下班的编码神器 GitHub Copilot，遭 90 亿美元的集体诉讼！

CSDN

1+阅读 · 2022年11月7日

Copilot被索赔90亿美元！因侵权问题，20年老程序员激活律师证对其发起集体起诉

量子位

0+阅读 · 2022年11月6日

编程神器Copilot逐字抄袭他人代码？GitHub 回应：相似，但不同......

InfoQ

0+阅读 · 2022年10月19日

开源程序员愤怒控诉！Github的「AI码农」Copilot就是寄生虫

新智元

0+阅读 · 2022年10月19日

Copilot逐字复制代码，恐抹去整个开源社区？程序员拿出律师证发起集体诉讼

机器之心

0+阅读 · 2022年10月18日

Copilot不让「白嫖」了？开源组织SFC号召开发者退出GitHub！

新智元

0+阅读 · 2022年7月3日

GitHub原生AI代码生成工具Copilot，官方支持Visual Studio 2022

极市平台

2+阅读 · 2022年4月3日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

柯萨奇病毒B3非结构蛋白3C调控SREBP1促进病毒复制的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云存储中基于无证书加密的数据机密性保护与访问控制

国家自然科学基金

1+阅读 · 2015年12月31日

新型DNA表观遗传修饰检测技术的开发及在体细胞重编程研究中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

转录中介体在体细胞重编程中的表观遗传学调控作用

国家自然科学基金

0+阅读 · 2015年12月31日

云计算中可证明安全的数据存储研究

国家自然科学基金

0+阅读 · 2013年12月31日

低氧环境下丙泊酚致未成熟脑认知功能障碍的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

云存储的数据自主访问控制与数据完整性盲审计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

IGF-2基因印记与PGC-1α转录水平的表观遗传调控在IUGR大鼠胰岛素抵抗的机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

成年大鼠恐惧记忆新机制的研究

国家自然科学基金

0+阅读 · 2008年12月31日

Continuous Mixtures of Tractable Probabilistic Models

Arxiv

0+阅读 · 2022年12月6日

Automatically Transform Rust Source to Petri Nets for Checking Deadlocks

Arxiv

0+阅读 · 2022年12月6日

Formulation of problems of combinatorial optimization for solving problems of management and planning of cloud production

Arxiv

0+阅读 · 2022年12月5日

Marine Video Kit: A New Marine Video Dataset for Content-based Analysis and Retrieval

Arxiv

0+阅读 · 2022年12月3日

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations

Arxiv

0+阅读 · 2022年12月2日

Communicative Message Passing for Inductive Relation Reasoning

Arxiv

11+阅读 · 2020年12月16日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

11+阅读 · 2020年7月31日

已删除

Arxiv

33+阅读 · 2020年3月23日

Learning Conceptual-Contextual Embeddings for Medical Text

Arxiv

14+阅读 · 2020年3月12日

Learning Conceptual-Contexual Embeddings for Medical Text

Arxiv

27+阅读 · 2019年8月16日

VIP会员