近百个大数据开源项目,你该如何选型?|《开源大数据热力报告2022》入围项目公示

2022 年 10 月 10 日 InfoQ

在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目, InfoQ 作为战略合作伙伴参与其中

项目简介

「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过 Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下 7 个阶段:公开数据初筛 ->项目技术分类 ->专家审议 ->入围公示 & 征集修正 ->热力值计算和关联分析 ->数据洞察和课题研究 ->报告审议。

数据来源

2015 年 1 月至 2022 年 9 月的 Github 和 Jira 公开数据,包括项目 id、Star、Issue、open PR,review comment,merge PR 等。

数据初筛

项目初筛 Github 上 Topic Tag 满足如下条件且开源的大数据项目:Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

技术分类

根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理 / 安全 / 中间件、数据可视化。

#说明

  • 数据查询和分析分类聚焦大数据分析类型项目,不包括 OLTP 数据库、OLTP 能力为主的 HTAP 数据库和 NoSQL数据库

  • 数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目

  • 数据管理 / 安全 / 中间件分类中,项目较少且功能互相交叠,因此归为一类

  • 本次报告聚焦大数据领域,不包含大数据 AI 融合型

项目公示

现将本次入围项目(共计 92 个)予以公布,公示期为 2022 年 10 月 10 日至 10 月 16 日。

其他项目补充征集

如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。

参与标准:

1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本

2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

参与方式:

扫描上方二维码,参与征集

截止日期:2022 年 10 月 16 日 24 时

发布预告

「 开源大数据热力报告 2022」将于 2022 年 11 月云栖大会现场正式发布。

特别致谢
  • 联合发起方:开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会

  • 战略合作:开源中国、InfoQ、阿里云开发者社区

  • 合作媒体:CSDN、Datafun、SegmentFault 思否

登录查看更多
1

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
《可信密态计算白皮书》正式发布!48页pdf
专知会员服务
32+阅读 · 2022年9月29日
《全球开源生态研究报告(2022年)》发布,48页pdf
专知会员服务
38+阅读 · 2022年9月19日
华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
46+阅读 · 2022年8月20日
《深度学习平台发展报告(2022年)》发布, 26页pdf
专知会员服务
118+阅读 · 2022年7月29日
企业应用运维管理指标体系白皮书,45页pdf
专知会员服务
49+阅读 · 2022年5月28日
【报告】2021人工智能竞赛白皮书(附PDF下载)
专知会员服务
48+阅读 · 2022年5月27日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
被热议的DataOps ,究竟要解决什么问题
InfoQ
0+阅读 · 2022年8月28日
中国自主的数据库评测,是如何开展的?
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年4月30日
国家自然科学基金
3+阅读 · 2011年3月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关VIP内容
《可信密态计算白皮书》正式发布!48页pdf
专知会员服务
32+阅读 · 2022年9月29日
《全球开源生态研究报告(2022年)》发布,48页pdf
专知会员服务
38+阅读 · 2022年9月19日
华为发布业界首个《云原生数据库白皮书》,25页pdf
专知会员服务
46+阅读 · 2022年8月20日
《深度学习平台发展报告(2022年)》发布, 26页pdf
专知会员服务
118+阅读 · 2022年7月29日
企业应用运维管理指标体系白皮书,45页pdf
专知会员服务
49+阅读 · 2022年5月28日
【报告】2021人工智能竞赛白皮书(附PDF下载)
专知会员服务
48+阅读 · 2022年5月27日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
42+阅读 · 2022年4月15日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年4月30日
国家自然科学基金
3+阅读 · 2011年3月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员