日前,Gitee 突然推出新规,开源仓库须先审核再上线,未审核仓库也仅限登录用户访问,针对访问者和资源库所有者均加强了审核要求。此事在各社交媒体引发热议。
“内容监管的话题在国内并不鲜见,只要是公开的,就有可能会受到限制。不可避免的,也会有跟事件无关却受到影响的人。”开源中国创始人 &CTO 红薯在雨林开源行访谈中说道。
很多人经常把开源软件和自由软件混为一谈,也常常会有人把开源软件和免费软件这两个概念混淆在一起。开源软件指公开源代码的软件,在发行时会附上软件的源代码,并授权允许用户更改、传播或者二次开发。在使用开源软件时,需考虑所使用开源软件的 License 限制。
“我们可以把开源项目当成库来引用,但如果涉及到代码引用,不管是否要分发,都要尊重版权声明、版权规定。这也是为什么我们要大力推开源雨林的原因,就是要让真正用开源项目的用户理解版权背后的权、责、利,提前规避未来可能会出现的高风险。”开放原子开源基金会 TOC 主席、LF AI & Data 基金会主席堵俊平表示。
许可证是开源领域最大的规则。近几年,互联网飞速发展,开源规则、许可证却一直没有太大变化,并没有跟上当前局势所需要的进步或调整。红薯在雨林开源行中说道,“不仅仅是 License,开源整套的玩法、开源定义等会不会因此而发生变化,我觉得这是整个开源界的标准需要一个适应的过程。”
在 AI 技术快速发展的今天,开源的规则、开源内容形态的敏感性,以及开源数据集的保护等方面都受到了考验。如何秉持开源的初衷和出发点,发挥好基金会的推动作用,推动开源领域不断向着纵深发展,在开始中变化,在变化中成长,建立健康繁荣的开源生态,让更多的优质开源项目在中国生长繁茂,并走向世界。
雨林开源行(第一期)邀请到了 OpenChain Board、CHAOSS Maintainer 高琨作为主持人,开源中国创始人 &CTO 红薯、开放原子开源基金会 TOC 主席、LF AI & Data 基金会主席堵俊平两位嘉宾,在一个半小时的访谈中,对开源的内容监管、知识产权&版权意识、开源标准,以及标准、生态、基金会之间的关系、AI领域全新挑战等问题,给出了清晰和明确的回复,以下是部分访谈内容节选,略有删减:
完整版视频可点击文章下方【阅读原文】观看
*以上视频所表达想法及意见仅代表发言嘉宾个人观点
红薯:首先,内容监管的话题在国内并不鲜见。开源是自由、开放、全球协同的。当我们对它施加约束、限制时,反弹的心理是会很强烈的。不只是代码,包括现在互联网出现的各种各样的内容形态,例如文字、视频、音频等。只要是公开的,就有可能会受到限制,也会有跟事件无关却受到影响的人。而现在的检测技术是简单的,导致受影响的、误杀的情况会特别明显。像开源许可证这样的文本,误杀率是非常高的,我觉得这个是大家对这件事情反应比较大的重要原因之一。
其次,喊声最强的,有拿 Gitee 当图床,利用带宽存图片,然后在别的地方引用的;还有一些把境外视频源或海外频道源的配置文件放在平台上,众多播放器直接调用的。这种做法对平台来说百害而无一利,以前 GitHub 也封过类似的情况,我们这次这么做,直接导致了他们没法用。
另外,这件事情做得比较着急,这也是我们做的欠缺的地方。对于正常的开源项目,需要大家提交公开申请,已经加大了审核的技术投入和人力投入,加快审核进度,尽量确保每一名开发者的使用体验,尽早回归到正常状态。
堵俊平:现在的形势,相较于 10 年、20 年前是在慢慢变好的。前段时间闹得沸沸扬扬的“小满”事件,其实就是个人创作者的版权维护意识在增强的表现。即使公开发布在网络上,也仍然有版权,需要尊重创作者的版权原创声明。
在开源领域,大家会非常关注 License,为什么呢?很多开源软件是免费可获得或公开可获得的,但并不意味着可以不讲规则的随意使用。在使用开源软件时,需考虑所使用开源软件的 License 限制,License 的选择直接决定了使用时需要遵从的义务。
之前有看到一些项目,直接 Copy 别人的项目代码,去掉 License,做了一些修改就重新发布了。从其新发布版本的版权声明中,看不到原来项目的任何痕迹。这种情况很多,但不建议大家这么做,一定要合规。我们可以把这个开源项目当成库来引用,但如果涉及到代码引用,不管是否要分发,都要尊重版权声明、版权规定。这也是为什么我们要大力推开源雨林的原因,就是要让真正用开源项目的用户理解版权背后的权、责、利,提前规避未来可能会出现的高风险。
红薯:在开源里面,许可证就是最大的规则。我和大多数人的观点不太一样,现在的开源规则、许可证在过去的二三十年里面好像没有太大变化,很稳定,但确实发展较为滞后了。近几年,社会的发展非常快,如果还是用二三十年前的标准看待今天的局势,那我可能会打一个问号,这些标准是否适合或者说需要做什么样的调整。
虽然我现在也没有答案,但从这两年云计算跟开源许可证打架,大家应该也看出了一些端倪。不仅仅是 License,包括整套的玩法、对开源的定义等等会不会因此而发生变化,我觉得这是整个开源界的标准需要一个适应的过程。
现在各个不同的角色里,基金会应该发挥其推动作用,基于现状有些新的现实、新的调整,推动标准与时俱进。个人对开放原子开源基金会还是抱有很大期望的。之前也看到国内开始有像木兰的许可证,尽管做的变化不是特别大,但我觉得这是一个很好的开始。北大周明辉老师他们一直也在做这个事情,我觉得咱们可以更大胆开放一点。
堵俊平:像 Commons Clause、SSPL 这类许可证,按照 OSI 的定义,歧视了某种用途未被认可,但在本质上是为了保护自己的商业利益。最早,开源不叫 Opensource Software,叫 Free Software,也就是我们说的自由软件。自由运动发起人 Richard Stallman 是开源届比较崇拜的一个英雄,我认为开源就是靠这些个人英雄主义推动发展的,打破一些垄断还是很好的。现在,我们不断地增加一些原则和约束,使其更加公平。
如何在新时代探讨利益和责任之间的再平衡,我认为这是个很好的话题。前段时间 GitHub 推出的 AI 自动写代码神器 GitHub Copilot,写出来的代码的 Copyright 属于谁?该用什么样的 License ?都是迫切需要去思考的问题。技术在发展,我们一定不能固步自封,一定要用发展创新的眼光去审视这些问题。
开源走到今天不单是软件,还有硬件、数据,开源的内涵跟外延都在不断扩大,所以跟我们最早设想的开源世界和开源规则会有些变化。不仅像 License,代码可能也是人写的,很多的逻辑也是刻画的,但数据的产生有很多种方式,由机器产生的、人产生的、人和机器一起共同产生的,这里面多多少少会涉及到一些敏感信息。虽然我们一般都要求做脱敏处理,但是像人脸怎么脱敏?脱完敏之后却发现识别不了了。在国外,有些开放的数据,例如图像领域不能用于商业,但你会发现它跟开源的定义又有冲突。开源更定义要求对所有的使用场景、所有使用的人 / 公司 / 国家都是一视同仁的。这种情况我认为在开放的数据领域一定会有一些新的不一样的调整。
而且,数据还有一个大的隐患是要防篡改。如果是自然收集来的,它可能比较有价值。但如果人为地做了修改,可能这个数据集就只能起到一个误导的作用。所以这里面除了分发、修改的权利,还有很多限制的权利,以保证来源正当。但不管如何约束,从开源的角度看:合法合规、通过数据集的共享创造更多价值,才是开源数据集最大的初衷和出发点。
点击图片跳转阅读完整内容
什么是开源雨林?
开源雨林围绕开源通识、开源使用、开源贡献三大方面构建知识体系,愿把长期积累的经验系统化分享给企业,在团队、机制、项目三方面提供合作,推动各企业更高效地使用开源、贡献开源,提升全行业开源技术与应用水平。
开源雨林的内容已开源,并托管在 https://github.com/opensource-rainforest ,欢迎通过 Pull Request 的形式贡献内容,通过 Issue 的形式展开讨论,共同维护开源雨林的内容。