2019年6月11日下午14:00,我们邀请了Clickhouse作者及开发团队到中科院计算所进行交流,报告题目为“ClickHouse Introduction and Deep Dive”,地点在计算所4层446会议室,欢迎大家参加。
Clickhouse介绍
Clickhouse是由俄罗斯最大的搜索引擎公司Yandex于2016年开源的面向分析的数据库管理系统,它能够存储数十PB的数据,每台服务器每秒可以处理数十亿行数据,提供亚秒级的实时分析报告,同时可以实时的摄取新数据。Clickhouse目前已被腾讯、新浪、头条、虎牙、快手、青云和CloudFlare等数百家公司用于生产当中。
Clickhouse的具体特点:
1.真正的面向列的DBMS
2.数据高效压缩
3.磁盘存储的数据
4.多核并行处理
5.在多个服务器上分布式处理
6.SQL语法支持
7.向量化引擎
8.实时数据更新
9.索引
10.适合在线查询
11.支持近似预估计算
12.支持嵌套的数据结构
13.支持数组作为数据类型
14.支持限制查询复杂性以及配额
15.复制数据复制和对数据完整性的支持
Clickhouse的劣势:
1. 没有完整的事物支持。
2. 缺少高频率、低延迟的修改或删除数据的能力。
ClickHouse与已有大数据分析技术有何不同
之前的大数据分析,例如Hadoop家族由很多技术和框架组合而成,其最有价值的Kafka、HDFS、Spark可以用ClickHouse一项技术代替。
Clickhouse的性能:
以下为新浪公司实战得出的测试结果:
集群部署4台机器,每台机器配置:CPU E5-2620@2.00GHz ,开启超线程后24core,48g内存,3T×12 Raid5 Select count(*) 300亿数据 0.9秒
select date, count(*) from xx group by date,300亿数据 group by日期查询 9.8秒
官方压测
下面是100M数据集的跑分结果:ClickHouse比Vertica快5.6倍,比Hive快289 倍,比MySQL快831倍。
https://clickhouse.yandex/benchmark.htm
ClickHouse目前已经应用于以下场景:
1. 电信行业用于存储数据和统计数据使用。
2. 新浪微博用于用户行为数据记录和分析工作。
3. 用于广告网络和RTB、电子商务的用户行为分析。
4. 信息安全里面的日志分析。
5. 检测和遥感信息的挖掘。
6. 商业智能。
7. 网络游戏以及物联网的数据处理和价值数据分析。
8. 最大的应用来自于 Yandex的统计分析服务Yandex.Metrica,类似于谷歌 Analytics(GA),或友盟统计、小米统计,帮助网站或移动应用进行数据分析和精细化运营工具。据称 Yandex.Metrica 为世界上第二大的网站分析平台。ClickHouse在这个应用中,部署了近四百台机器,每天支持 200 亿的事件和历史总记录超过13万亿条记录,这些记录都存有原始数据(非聚合数据),随时可以使用 SQL 查询和分析,生成用户报告。
本文Clickhouse介绍参考自https://www.secrss.com/articles/5285
ClickHouse 官网:https://clickhouse.yandex/
ClickHouse 开源项目地址:https://github.com/yandex/ClickHouse