CSDN创始人蒋涛:“重应用轻生态”的AI开源模式非长久之计

2022 年 6 月 3 日 CSDN

作者 | 彭慧中        责编 | 屠敏、何苗
出品 | 《新程序员》编辑部

6 月 2 日,2022 北京智源大会正于云端相聚,密切关注中国开源发展的 CSDN 创始人&董事长、极客帮创投创始合伙人蒋涛在会议上发表了《中国 AI 开源开发者的现状与机遇》主题演讲,并表示,“中国 AI 开源的发展已进入黄金时代,且大有‘滚雪球’之势。目前,中国 AI 偏应用层发展,在全球开源代码贡献程度上与美国尚有差距。未来,中国 AI 开源生态的重中之重是建好开发者社区,CSDN 也将不遗余力地推动中国 AI 开源平民化发展。”

点击文末「 阅读原文」可观看直播回放。

蒋涛,CSDN 创始人&董事长、极客帮创投创始合伙人

以下为蒋涛演讲实录:

很荣幸来到智源大会与大家相聚于此。开源目前已成为全球炙手可热的焦点,而国内近十年来在开源已实现跨越式发展,国家政策的引导、基础软件的崛起、企业的大力投入……中国最好的开源时代已经来临。今天我将从开源社区和生态的角度,来分析 AI 开源开发者的未来发展。


开源蓬勃发展之态已势不可挡


根据 GitHub 所发布的报告显示,每年都有越来越多的开发人员为开源项目做出贡献。 在 2021 年,近 300 万开发人首次为开源项目做出贡献,而 2016 年时,这个数据仅为 80 万。在开源浪潮之下,中国也在乘胜追击,随着去年开源被写入国家“十四五”规划,中国的开源也开创了历史性的新篇章。

2021 GitHub 年度报告

从 GitHub 的数据上来看,中国毫无疑问是开源软件的使用大国。开源项目活跃度美国位列第一,中国以 48% 的增速位列第二。但我认为中国的实际活跃数量应该更高,很多人由于语言的障碍和社区习惯,可能并没有在 GitHub 中活跃。因此在 CSDN 社区中,我们能看到更快的增长。

近些年,AI、云计算等技术的发展均得益于开源的兴起,而开源自身的商业化模式也在市场上不断得到验证,开源在近十年迎来了飞速成长。

从统计数据来看,2013 年,全球收入超过一亿美金的大型商业开源软件公司仅有 4 家,目前已增至 53 家,获得投资及已经上市的开源企业也呈 10 倍以上的增长,如 Cloudera、MongoDB、Mulesoft、Elastic、GitHub 等多家开源公司都实现了价值数十亿美元的 IPO 或并购交易。

正如 GGV 投资写的文章中所宣称的那样,SaaS 过后的“下一个万亿美元市场”是面向开发者的开源市场。全球开发者的实际人数超过 5000 万,GitHub 也曾预测,2025 年其平台上将有 1 亿开发者,未来几年内开发者数量几乎翻倍。那么下一个“5000 万开发者”群体将来自于哪里?我认为这正是中国的机遇。

中国在下个阶段将迎来三大红利:

  • 人人都将成为开发者。全民编程的时代已然到来,或许未来,人人都将是AI开发者也未尝可知。

  • 在技术浪潮席卷的时代,行业数字化大升级,家家公司都将成为技术公司。开发者不再是公司的成本中心,转而成为数字引擎。

  • 中国核心栈生态系统和开源技术体系正在迅猛发展,努力朝着构建十万亿技术大生态的蓝图进发。

“重应用,轻生态”,为 AI 开源发展埋下隐患


站在开发者社区的角度来看行业 AI 开源的现状如何,我想通过分享一组数据来说明。

首先,开发者对 AI 开源技术的感知程度可以从百度指数上得到一些体现,2014 年后,AI 作为一个热点领域进入快速发展期,第一个高点即是 AlphaGo 的问世。而近两年 AI 发展进入平稳期,主要是受到了疫情的冲击。

其次,在开发者对 AI 开源技术的偏好方面,目前增长最快的 AI 开源框架为 Pytorch,其搜索指数在 2019 年超越 TensorFlow,且后续涨势凶猛。原因是使用简单、API 好用、性能优越。中国的 AI 开源框架和美国 AI 开源框架相比,大众感知也存在较大差距,当前美国的 AI 开源框架在市场上具有更高的认知度。

在 CSDN 开发者调查报告中也对 AI 领域的热词进行了排序,然而当前热议的 Transformers、Bert 等框架未能进入 CSDN 博文总量的热点词 TOP20。其中主要原因是,CSDN 社区主要聚集的是大批应用层面的开发者,这也表明以上两个框架的应用层面仍在发展中。从 CSDN 关于 AI 开源框架的热度排名中也可以看到,老牌的 OpenCV 排名第一,主要是因为实用性较高。但在认知和使用上 TensorFlow 还是排名第一,只不过较去年的 48% 的适用人群下降到今年的 37% 。

我曾在四五年前提出了一个“技术社区三倍速定律”,即一个技术要真正进入到应用领域中,首先要得到学术界的认可,接着进入工程界,最后才会进入大众视野。

什么样的技术才能够真正落地?要看开发者是否会自发地、主动地去研究这项技术,并且在工作中去应用它。因此,如 CSDN 一类的技术社区能一定程度上反映出未来的技术趋势。报告中,可以看到人工智能“三倍速增长”的时间点大约是 2016 年至 2018 年间,受 AlphaGo 的影响,这个概念于 2016 年得到广泛关注,并在 2018 年达到最高峰,大量 VC 的资金狂热涌入,现在稍有回落。

来源:CSDN 网站

除 AI 开源框架的应用,从全球 AI 开源框架的贡献角度来看,中美仍有差距。在 CSDN 联合 OSS Insight(PingCAP 出品)提供数据支持的全球 AI 开源框架 Star 数月榜 TOP20 中,尽管 6 个是中国开源项目,但无一进入 Star 数总榜前十,好在它们的发展势头十分迅猛。

截至2021年12月,百度“飞桨”深度学习平台(即 PaddlePaddle),已经冲破了过去在中国市场上 Google、Facebook(Meta)的垄断局面,成为中国深度学习平台综合市场份额第一,但 TensorFlow 与 PaddlePaddle 的 Star 数差距接近10:1。同时,TensorFlow 与 PaddlePaddle 的 Commits 数量,中美差距近 3 倍。尽管从 AI 发展历程上,国外具有一定的先发优势,但开源框架 Star 数和 Commits 数的欠缺仍能反映出中国开源生态中存在的些许问题,后面我将为大家详细说明。

全球AI开源框架Star数4月、5月榜TOP2,来源:OSS Insight 数据

据前瞻产业研究院报告指出,中国 AI 的发展更偏向于应用层,且中国在应用层上也有一些优势,但是要想取得真正的成功还得靠构建完整的生态。“重应用,轻生态”的 AI 开源模式并非长久之计。

那么如何衡量开源生态是否良好呢?我认为要有以下三点,首先是项目社区的契合度;其次是产品市场的契合度;最后是价值市场契合度。其实人工智能已经经历过好几轮春天与冬天了,而我认为 AI 在价值市场契合度方面还没有完成闭环。现在真正的机会是把这三个闭环都完成,而这里面都对应有具体的指标。

  • 项目契合度指标:包括 GitHub 上的 Star 数、协作者数量和拉取请求数量。

  • 产品市场契合度指标以下载次数衡量的自然采用率。

  • 价值市场契合度指标:RAS(可靠性、可用性、安全性);工具、插件;表现;审计;服务。

中国的现状让我们看到的问题是:项目契合度方面,Star 数不够、Commit 数不足且过于集中在几个主导开源项目的公司;产品市场契合度方面,用户的贡献与下载使用未形成完整闭环;价值市场契合度方面,商业化还有待发展。


打造良好开源生态从社区起步


中华民族自古以来是一个勤奋的民族,想要“弯道超车”并非难事。只是目前的开源生态尚且存在问题,甚至形成了一种“各自为政”的局面,这会导致内部消耗,增加用户选择成本,以及技术复用难度,阻碍整个行业的大规模发展。所以,开源生态建设对于中国的发展至关重要。

中国技术目前处于高速发展阶段,以市场应用为第一先导暂且是可以理解的。走自己的道路,拥有自己的技术生态,我认为这是大势所趋。

“美国道路”一直推行的是 AI 平民化。例如 Hugging Face 公司旗下被称为是“机器学习界的 GitHub ”的 Transformers 成为史上 Star 增长最快的开源项目。Transformers 的 Star 数增长是 TensorFlow 的近 2 倍。由此看来,单一大模型本身有局限,从大模型里抽取出来的更普世、平民化的 AI 框架正在获得更多开发者青睐。2022 年,一周之内完成了价值 1 亿美元的 C 轮融资,Hugging Face 估值将达到 20 亿美元。

让更多的开发者和更多的公司能够用起来才是最重要的。Hugging Face 取得巨大增长的原因也是如此。让技术平民化、AI 平民化,为的就是让更多的非技术人员成为程序员、让普通程序员成为 AI 程序员。未来,让技术能够走进千家万户,是驱动所有行业大发展的基石。

中国打造良好开源生态的重中之重就是建好开发者社区,而社区中首先要有开发者的布道师。如今,布道师很抢手这是一件好事。曾经外国企业与我们合作在中国建生态,一路下来推动了技术大发展,现在也非常需要布道师来推广,同时也需要有一些衡量指标来衡量这些开发生态的建设。当然这其中,贡献者的数量非常关键。只有贡献者数量丰富,才能说明这个产品不是在唱“独角戏”,而是真正让目标用户参与进来了。他们既是使用者,也是贡献者,这才是社区生态的核心价值。

那么 CSDN 正在做一些什么事情来推动中国 AI 开源平民化呢?

首先,CSDN 和 GitHub 形成了联动,在前两天已发布了内测版 My GitHub,即 GitHub 精选,主要目的是让中国开发者针对项目文档等做一些中文介绍,以便让中国开发者更好地使用,并且这些内容将与 CSDN 的内容进行打通。同时,我们和专业做代码静态分析和安全分析的 Scantist 公司合作,联合推出了一个开源精选指数。

其次,我们希望每一个开源项目不光有代码贡献者,也要有内容贡献者、生态贡献者。因此,我们会发布一个社区云,除了代码社区以外,内容社区的贡献者也都将作为开源项目的贡献者加入到每一个开源项目里面去。

最后,我们希望能提供更多具有 AI 开源能力的可交付产品,让广大的工程师能够很方便地使用。

关于未来中国的开源会怎么样?我想在这里做一个预测。

我认为全球开源 50 强,中国在未来的 5 年应该可以做到 30% 的占有率,具体在以下方面会有突破:

  • 第一是软硬件结合方面我觉得中国是有优势的,包括机器人、物联网、智能汽车;

  • 第二是前沿技术,我们在人工智能方面可以看到中国的研究能力,中国开源框架的技术能力全球领先。另外在分布式数据库方面我觉得也有非常大机会。

CSDN 将拥抱中国开源技术生态,与业界携手共同推动 AI 平民化技术平民化的发展。

END


祝所有开发者朋友假期快乐,端午安康!

新程序员001-004》全面上市

对话世界级大师,报道中国IT行业创新创造

欢迎扫描下方二维码或点击进入立即订阅

畅享电子书及精美纸质书

点这里↓↓↓记得关注标星哦~ 

一键三连 「分享」「点赞」「在看」

成就一亿技术人

登录查看更多
0

相关内容

中华人民共和国,通称中国,是一个位于东亚的社会主义国家,由中国共产党一党执政,首都位于北京市。1949年10月1日,中国共产党在第二次国共内战取得绝对优势后,于北京市正式成立中华人民共和国,中国国民党领导的中华民国政府则在同年底败退台湾。 维基百科
超详细的AI 专家路线图!GitHub获星19.3k
专知会员服务
61+阅读 · 2022年5月11日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
专知会员服务
79+阅读 · 2021年7月28日
专知会员服务
46+阅读 · 2021年6月27日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
12+阅读 · 2021年11月1日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
14+阅读 · 2020年9月1日
VIP会员
相关VIP内容
超详细的AI 专家路线图!GitHub获星19.3k
专知会员服务
61+阅读 · 2022年5月11日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
专知会员服务
79+阅读 · 2021年7月28日
专知会员服务
46+阅读 · 2021年6月27日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
相关基金
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员