在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目, InfoQ 作为战略合作伙伴参与其中。
「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过 Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下 7 个阶段:公开数据初筛 ->项目技术分类 ->专家审议 ->入围公示 & 征集修正 ->热力值计算和关联分析 ->数据洞察和课题研究 ->报告审议。
2015 年 1 月至 2022 年 9 月的 Github 和 Jira 公开数据,包括项目 id、Star、Issue、open PR,review comment,merge PR 等。
项目初筛 Github 上 Topic Tag 满足如下条件且开源的大数据项目:Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理 / 安全 / 中间件、数据可视化。
#说明
数据查询和分析分类聚焦大数据分析类型项目,不包括 OLTP 数据库、OLTP 能力为主的 HTAP 数据库和 NoSQL数据库
数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目
数据管理 / 安全 / 中间件分类中,项目较少且功能互相交叠,因此归为一类
本次报告聚焦大数据领域,不包含大数据 AI 融合型
现将本次入围项目(共计 92 个)予以公布,公示期为 2022 年 10 月 10 日至 10 月 16 日。
如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。
1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本
2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
扫描上方二维码,参与征集
截止日期:2022 年 10 月 16 日 24 时
「 开源大数据热力报告 2022」将于 2022 年 11 月云栖大会现场正式发布。
联合发起方:开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会
战略合作:开源中国、InfoQ、阿里云开发者社区
合作媒体:CSDN、Datafun、SegmentFault 思否