重点实验室系列报告-ClickHouse Introduction and Deep Dive

2019 年 6 月 5 日 中国科学院网络数据重点实验室

2019611日下午1400,我们邀请了Clickhouse作者及开发团队到中科院计算所进行交流,报告题目为“ClickHouse Introduction and Deep Dive”,地点在计算所4446会议室,欢迎大家参加。

                           

Clickhouse介绍

        Clickhouse是由俄罗斯最大的搜索引擎公司Yandex2016年开源的面向分析的数据库管理系统,它能够存储数十PB的数据,每台服务器每秒可以处理数十亿行数据,提供亚秒级的实时分析报告,同时可以实时的摄取新数据。Clickhouse目前已被腾讯、新浪、头条、虎牙、快手、青云和CloudFlare等数百家公司用于生产当中。


 Clickhouse的具体特点:

1.真正的面向列的DBMS

2.数据高效压缩

3.磁盘存储的数据

4.多核并行处理

5.在多个服务器上分布式处理

6.SQL语法支持

7.向量化引擎

8.实时数据更新

9.索引

10.适合在线查询

11.支持近似预估计算

12.支持嵌套的数据结构

13.支持数组作为数据类型

14.支持限制查询复杂性以及配额

15.复制数据复制和对数据完整性的支持

 

Clickhouse的劣势:

  1. 1.     没有完整的事物支持。

  2. 2.     缺少高频率、低延迟的修改或删除数据的能力。

 

ClickHouse与已有大数据分析技术有何不同

之前的大数据分析,例如Hadoop家族由很多技术和框架组合而成,其最有价值的KafkaHDFSSpark可以用ClickHouse一项技术代替。


 

Clickhouse的性能:

 

以下为新浪公司实战得出的测试结果:

集群部署4台机器,每台机器配置:CPU E5-2620@2.00GHz ,开启超线程后24core48g内存,3T×12 Raid5 Select count(*)  300亿数据 0.9

select date, count(*) from xx group by date300亿数据 group by日期查询 9.8

官方压测

下面是100M数据集的跑分结果:ClickHouseVertica5.6倍,比Hive289 倍,比MySQL831倍。

https://clickhouse.yandex/benchmark.htm

 

ClickHouse目前已经应用于以下场景:

1.    电信行业用于存储数据和统计数据使用。

2.    新浪微博用于用户行为数据记录和分析工作。

3.    用于广告网络和RTB、电子商务的用户行为分析。

4.    信息安全里面的日志分析。

5.    检测和遥感信息的挖掘。

6.    商业智能。

7.    网络游戏以及物联网的数据处理和价值数据分析。

8.    最大的应用来自于 Yandex的统计分析服务Yandex.Metrica,类似于谷歌 Analytics(GA),或友盟统计、小米统计,帮助网站或移动应用进行数据分析和精细化运营工具。据称 Yandex.Metrica 为世界上第二大的网站分析平台。ClickHouse在这个应用中,部署了近四百台机器,每天支持 200 亿的事件和历史总记录超过13万亿条记录,这些记录都存有原始数据(非聚合数据),随时可以使用 SQL 查询和分析,生成用户报告。

 

本文Clickhouse介绍参考自https://www.secrss.com/articles/5285

ClickHouse 官网:https://clickhouse.yandex/

ClickHouse 开源项目地址:https://github.com/yandex/ClickHouse




登录查看更多
9

相关内容

【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
67+阅读 · 2020年3月9日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
106+阅读 · 2019年6月21日
实验室学生参加 ICWS 2019 并做报告
inpluslab
10+阅读 · 2019年9月5日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
俄罗斯Yandex公司ClickHouse团队访问计算所
中国科学院网络数据重点实验室
13+阅读 · 2019年6月12日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
中科院网络数据科学与技术重点实验室 2017年大事记
中国科学院网络数据重点实验室
18+阅读 · 2018年2月14日
领域应用 | 图数据库及其在恒昌的应用简介
开放知识图谱
6+阅读 · 2017年10月10日
安全牛发布《威胁情报市场指南》报告
安全牛
12+阅读 · 2017年7月10日
Arxiv
20+阅读 · 2019年11月23日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
11+阅读 · 2018年7月31日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
实验室学生参加 ICWS 2019 并做报告
inpluslab
10+阅读 · 2019年9月5日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
俄罗斯Yandex公司ClickHouse团队访问计算所
中国科学院网络数据重点实验室
13+阅读 · 2019年6月12日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
中科院网络数据科学与技术重点实验室 2017年大事记
中国科学院网络数据重点实验室
18+阅读 · 2018年2月14日
领域应用 | 图数据库及其在恒昌的应用简介
开放知识图谱
6+阅读 · 2017年10月10日
安全牛发布《威胁情报市场指南》报告
安全牛
12+阅读 · 2017年7月10日
相关论文
Arxiv
20+阅读 · 2019年11月23日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
11+阅读 · 2018年7月31日
Arxiv
8+阅读 · 2018年5月15日
Top
微信扫码咨询专知VIP会员