从洗袜子到hbase存储原理解析 - 专知

会员服务 ·

0

从洗袜子到hbase存储原理解析

2019 年 2 月 20 日 大数据技术

来自：互联网侦察

小史是一个非科班的程序员，虽然学的是电子专业，但是通过自己的努力成功通过了面试，现在要开始迎接新生活了。

对小史面试情况感兴趣的同学可以观看面试现场系列。

今天，小史的姐姐和吕老师一起过来看小史，一进屋，就有一股难闻的气味。

可不，小史姐姐走进卫生间，发现地下一个盆子里全是没洗的袜子。

小史：当然不是，盆里的袜子满了，就先放到这个桶里，然后再继续装，等到桶里的袜子满了，然后才放到洗衣机里一次洗完，这样不仅效率高，而且节省水电费。

小史洋洋得意地介绍起自己洗袜子的流程。

小史一听就有点不高兴，全世界都黑程序员，没想到自己还没变成程序员就被自家姐姐黑了。

说完就进自己房间，把姐姐和吕老师晾在外面。小史姐姐也意识到不该拿程序员开玩笑，但现在也不知道该怎么办，就看着吕老师。

吕老师走进小史的房间。

【hbase是啥】

小史：别吹了，构建在hdfs上除了能存储海量数据之外，缺点一大堆，上次你给我介绍的hdfs缺点我可没忘啊，不支持小文件，不支持并发写，不支持文件随机修改，查询效率也低。

小史仔细回忆起hdfs来。

吕老师：hdfs确实有很多缺点，但是hbase却是一个支持百万级别高并发写入，支持实时查询，适合存储稀疏数据的分布式数据库系统。

吕老师：hbase主要用于大数据领域，在这方面，确实比mysql要厉害得多啊，它和mysql的存储方式就完全不一样。mysql是行式存储，hbase是列式存储。

【列式存储】

吕老师：没错，这就是行式存储系统存储稀疏数据的问题，我们再来看看列式存储如何解决这个问题，它的存储结构是这样的

小史：这个我看懂了，相当于把每一行的每一列拆开，然后通过rowkey关联起来，rowkey相同的这些数据其实就是原来的一行。

吕老师：你这里只说到了一个好处，由于把一行数据变成了这样的key-value的形式，所以hbase可以存储上百万列，又由于hbase基于hdfs来存储，所以hbase可以存储上亿行，是一个真正的海量数据库。

吕老师：这就是hbase的威力呀，还不只如此，其实很多时候，我们做select查询的时候，只关注某几列，比如我现在只关心大家的工资，传统的按行存储，要选出所有人的工资是怎么办的呢？

小史：哦，我大概明白了，原来是这样，所以hbase的查询效率也很高，但是我有个问题啊，如果我就要查我的所有信息，这是一行数据，hbase查询起来是不是反而更慢了呢？

【列簇】

吕老师：列簇，顾名思义，就是把一些列放在一起咯，在hbase中，会把列簇中的列存储在一起，比如我们把和工作相关的salary和job都放在work这个列簇下，那么大概是这样的

小史：哦，我明白了，这样的话，一个列簇中的列会被一次就拿出来，如果我要查所有列的信息的话，把所有信息都放在一个列簇就好了。

（注意：hbase中，其实所有列都是在列簇中，如果不指定，就在一个默认列簇中。生产环境由于性能考虑和数据均衡考虑，一般只会用一个列簇，最多两个列簇）

【rowkey设计】

（注：当然，有些中间件把sql翻译成hbase的查询规则，从而支持了sql查hbase，不在本文讨论范围内）

小史：啊？这和我想象的不一样啊，如果我想查询工资比20w多的记录，在mysql中，只要用一条很简单的sql就行啊，这在hbase中怎么查呢？

吕老师：在hbase中，你需要把要查询的字段巧妙地设置在rowkey中，一个rowkey你可以理解为一个字符串，而hbase就是根据rowkey来建立索引的

不熟悉B+树的同学可以看这篇文章。hbase也是一样的原理。

吕老师：假设员工工资9999w封顶，查询的时候可能根据员工工资查询，也可能根据名字查询一个特定的员工，那么rowkey就可以这样设计

（注意，以上rowkey是简化版设计，只是为了讲清楚范围查询。实际使用中由于rowkey需要考虑散列性，所以可能不会这么用。后文会具体探讨散列性。）

吕老师：hbase提供了三种查询方式。

第一种是全表扫描，scan

第二种是根据一个rowkey进行查询

第三种是根据rowkey过滤的范围查询

比如你要查工资不少于20w的记录，就可以用范围查询，查出从startRow=0020到stopRow=9999的所有记录，这是hbase直接支持的一种查询方式哦。

吕老师：这里要注意几点，首先，rowkey是按照字符串字典序来组织成B+树的，所以数字的话需要补齐，不然的话会出现123w小于20w的情况，但是补齐的话，你就会发现020w小于123w

小史：哦，明白了，这都很好理解，因为rowkey是字符串形式，所以肯定是按照字符串顺序排序咯。而且rowkey有点类似于mysql中的主键吧，所以保证其唯一性也是可以理解的。还有就是因为每个key-value都包含rowkey，所以rowkey越短，越能节省存储空间。

（注意，如果rowkey复杂且查询条件复杂，hbase还针对rowkey提供了自定义Filter，所以只要数据在rowkey中有体现，能解析，就能根据自己的条件进行查询）

小史：但是吕老师，我有一个问题啊，之前说过hdfs不适合存储小文件，而hbase中的一条记录只有一点点数据，记录条数却很多，属于海量小文件，存在hdfs中不是内存爆炸了吗？

具体如何运用，我们下回分解。

生活现场是互联网侦察推出的现场系列中的另一个板块，旨在通过生活中的场景，来解释大数据微服务技术中的基本原理，希望对大家学习技术原理有所帮助。

往期回顾

【生活现场】从生日请客到hdfs工作原理解析

【生活现场】从打牌到map-reduce工作原理解析

【生活现场】从搬家到容器技术docker应用场景解析

还没看够怎么办？

由于大数据中间件基础加原理，介绍起来篇幅较大，有时候整篇看下来需要20～30分钟，为了增加阅读体验，将阅读时间控制在10分钟左右，特将文章进行切分，遵循少量多餐原则。

小史：大数据切块，这是学习hdfs么？

小编：额……

下一篇，我们继续。

●编号766，输入编号直达本文

●输入m获取文章目录

推荐↓↓↓

算法与数据结构

更多推荐《25个技术类公众微信》

涵盖：程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、iOS开发、C/C++、.NET、Linux、数据库、运维等。

登录查看更多

0

相关内容

HBase

HBase 全称是 Hadoop Database，是开源的高可靠性、高性能、可伸缩的分布式数据库系统，利用 HBase 技术建立大规模结构化存储集群。

FPGA加速系统开发工具设计:综述与实践

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

【干货书】现代数据平台架构，636页pdf

【干货书】现代数据平台架构，636页pdf

专知会员服务

260+阅读 · 2020年6月15日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【图神经网络(GNN)结构化数据分析】

【图神经网络(GNN)结构化数据分析】

专知会员服务

117+阅读 · 2020年3月22日

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

专知会员服务

115+阅读 · 2020年3月11日

Python数据分析:过去、现在和未来，52页ppt

Python数据分析:过去、现在和未来，52页ppt

专知会员服务

103+阅读 · 2020年3月9日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

【电子书】C++ Primer Plus 第6版，附PDF

【电子书】C++ Primer Plus 第6版，附PDF

专知会员服务

88+阅读 · 2019年11月25日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

DBAplus社群

9+阅读 · 2019年9月4日

《前端架构：从入门到微前端》—— 带你成为前端架构师

《前端架构：从入门到微前端》—— 带你成为前端架构师

phodal

14+阅读 · 2019年6月11日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

亿级订单数据的访问与存储，怎么实现与优化？

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

对话式交互技术原理及流程揭秘

对话式交互技术原理及流程揭秘

AI前线

5+阅读 · 2018年5月24日

基于 Storm 的实时数据处理方案

基于 Storm 的实时数据处理方案

开源中国

4+阅读 · 2018年3月15日

领域应用 | 图数据库及其在恒昌的应用简介

领域应用 | 图数据库及其在恒昌的应用简介

开放知识图谱

6+阅读 · 2017年10月10日

解析京东大数据下高效图像特征提取方案

解析京东大数据下高效图像特征提取方案

京东大数据

4+阅读 · 2017年9月29日

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

大数据技术

5+阅读 · 2017年7月28日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

RAM: Residual Attention Module for Single Image Super-Resolution

RAM: Residual Attention Module for Single Image Super-Resolution

Arxiv

9+阅读 · 2018年11月29日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Recurrent Autoregressive Networks for Online Multi-Object Tracking

Arxiv

9+阅读 · 2018年3月4日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

5+阅读 · 2018年2月13日

VIP会员

相关主题

相关VIP内容

FPGA加速系统开发工具设计:综述与实践

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

【干货书】现代数据平台架构，636页pdf

【干货书】现代数据平台架构，636页pdf

专知会员服务

260+阅读 · 2020年6月15日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【图神经网络(GNN)结构化数据分析】

【图神经网络(GNN)结构化数据分析】

专知会员服务

117+阅读 · 2020年3月22日

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

专知会员服务

115+阅读 · 2020年3月11日

Python数据分析:过去、现在和未来，52页ppt

Python数据分析:过去、现在和未来，52页ppt

专知会员服务

103+阅读 · 2020年3月9日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

【电子书】C++ Primer Plus 第6版，附PDF

【电子书】C++ Primer Plus 第6版，附PDF

专知会员服务

88+阅读 · 2019年11月25日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

数据要素发展报告(2025年)：附下载

人工智能代理提升战时舰船战备水平

【NeurIPS2025教程】大语言模型规划

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

相关资讯

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

DBAplus社群

9+阅读 · 2019年9月4日

《前端架构：从入门到微前端》—— 带你成为前端架构师

《前端架构：从入门到微前端》—— 带你成为前端架构师

phodal

14+阅读 · 2019年6月11日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

亿级订单数据的访问与存储，怎么实现与优化？

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

对话式交互技术原理及流程揭秘

对话式交互技术原理及流程揭秘

AI前线

5+阅读 · 2018年5月24日

基于 Storm 的实时数据处理方案

基于 Storm 的实时数据处理方案

开源中国

4+阅读 · 2018年3月15日

领域应用 | 图数据库及其在恒昌的应用简介

领域应用 | 图数据库及其在恒昌的应用简介

开放知识图谱

6+阅读 · 2017年10月10日

解析京东大数据下高效图像特征提取方案

解析京东大数据下高效图像特征提取方案

京东大数据

4+阅读 · 2017年9月29日

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

大数据技术

5+阅读 · 2017年7月28日

相关论文

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

RAM: Residual Attention Module for Single Image Super-Resolution

RAM: Residual Attention Module for Single Image Super-Resolution

Arxiv

9+阅读 · 2018年11月29日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Recurrent Autoregressive Networks for Online Multi-Object Tracking

Arxiv

9+阅读 · 2018年3月4日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

5+阅读 · 2018年2月13日

大家都在搜

大型语言模型

生成式人工智能

无人机系统

蓝牙安全攻防

朱克爱德华兹家族

再见，TD-SCDMA！

微信扫码咨询专知VIP会员