HBase集群监控那些事儿

2017 年 10 月 25 日 CSDN大数据 Zhisheng Tian


为什么需要监控?


为了保证系统的稳定性,可靠性,可运维性。


  • 掌控集群的核心性能指标,了解集群的性能表现;

  • 集群出现问题时及时报警,便于运维同学及时修复问题;

  • 集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采取行动;

  • 当集群出现问题时,监控系统可以帮助我们更快的定位问题和解决问题。


如何构建 HBase 集群监控系统?


公司有自己的监控系统,我们所要做的就是将 HBase 中我们关心的指标项发送到监控系统去,问题就转换为我们开发,采集并返回哪些 HBase 集群监控指标项。


HBase 集群监控指标


采集的监控数据主要包括以下几个方面:某台机器 OS 层面上的数据,例如 CPU、内存、磁盘、网络、load、网络流量等;某台 regionserver(或master)机器 jvm 的状态,例如关于线程的信息,GC 的次数和时间,内存使用状况,以及 ERROR、WARN、Fatal 事件出现的次数;regionserver(或 master)进程中的统计信息。


可以通过以下地址获取 HBase 提供的 JMX 信息的 web 页面



JMX web 页面的数据格式是json格式,信息很多!


OS 监控数据


HBase 中对于 OS 的监控数据,主要是 OperatingSystem 的对象来进行的,如下就是我提取出来的 JSON 信息。



其中比较重要的指标有 OpenFileDescriptorCount , FreePhysicalMemorySize , ProcessCpuLoad , SystemCpuLoad , AvailableProcessors , SystemLoadAverage


JVM 监控数据


Hbase 中对于 JVM 的监控数据,主要是 JvmMetrics 的对象来进行的,如下就是我提取出来的 JSON 信息,



JvmMetrics 主要统计的信息包括:内存的使用状态信息;GC的统计信息;线程的统计信息;以及事件的统计信息。


内存的统计信息主要是:JVM 当前已经使用的 NonHeapMemory 的大小、以及配置的 NonHeapMemory 的大小;JVM 当前已经使用的 HeapMemory 的大小、以及配置的 HeapMemory 的大小; JVM 运行时的可以使用的最大的内存的大小。


GC 的统计较为简单,仅统计了进程在固定间隔内 GC 的次数和花费的总时间。


线程的统计,主要是统计进程内当前线程的处于 NEW 、RUNNABLE、BLOCKED、WAITING、TIMED_WAITING、TERMINATED 这六种状态下的线程数量。


对于事件的统计,主要统计固定时间间隔内的 Fatal、Error、Warn 以及 Info 的数量。(这块好像不怎么重要)


REGION SERVERS 健康


你也可以通过如下地址:



获得到 Region Servers 健康值:



MEMORYPOOL


从全部的 JSON 值中你会看到很多种 MemoryPool 值,比如 Par Eden Space 、CMS Perm Gen、Par Survivor Space、CMS Old Gen、Code Cache ,按需获取吧。


总结


任何一个服务的监控系统都是一个不断迭代,不断优化的过程,不可能一开始就做到最好。监控总是比问题发生来的更早一些,而每一次出问题,又进一步加强相应方面的监控,我们需要让监控系统从出问题时才报警到可能出现问题时就预警逐渐过渡,最终让监控系统成为我们保证系统稳定性的一个有力工具。


最后,监控指标有很多,但请按需获取 ! 


参考资料


  • hbase性能监控(一)

    https://www.tuicool.com/articles/zQNrM3

  • hbase性能监控(二)

    https://www.tuicool.com/articles/YbQbIj

  • hbase性能监控(三)

    https://www.tuicool.com/articles/imArAb

  • HBase 集群监控系统构建

    https://blog.bcmeng.com/post/hbase-monitor.html

  • hbase jmx常用监控指标

    http://blog.csdn.net/englishsname/article/details/53883682


作者:Zhisheng Tian

来源:http://www.54tianzhisheng.cn/2017/10/21/HBase-metrics/

登录查看更多
1

相关内容

集群系统投入生产环境后,这时就需要一套可视化的工具来监视集群系统,这将有助于我们迅速地了解机群的整体配置情况,准确地把握机群各个监控节点的信息,全面地察看监控节点的性能指标,使机群系统具有较高的管理性。监视系统的主要目标是从各个监控节点采集监控信息,如CPU温度、CPU利用率、用户数、进程数、内存利用率等,然后将获取的监控信息汇集起来,便于综合分析和处理,最后根据分析和处理的结果做出相应的决策。本文以占用系统资源最少的、开放源代码的Ganglia为平台,详细讲解了如何搭建一个具有更高可靠性的集群监控系统。
【2020新书】使用高级C# 提升你的编程技能,412页pdf
专知会员服务
57+阅读 · 2020年6月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
专知会员服务
124+阅读 · 2020年3月26日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【电子书】Flutter实战305页PDF免费下载
专知会员服务
22+阅读 · 2019年11月7日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
基于Prometheus的K8S监控在小米的落地
DBAplus社群
16+阅读 · 2019年7月23日
专访阿里亚顿:Serverless与BFF与前端
前端之巅
45+阅读 · 2019年5月8日
分词那些事儿
AINLP
6+阅读 · 2019年3月26日
NLP 分词的那些事儿
人工智能头条
8+阅读 · 2019年3月15日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
Neo4j 和图数据库起步
Linux中国
8+阅读 · 2017年12月20日
解析京东大数据下高效图像特征提取方案
京东大数据
4+阅读 · 2017年9月29日
Arxiv
110+阅读 · 2020年2月5日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
6+阅读 · 2018年5月18日
Arxiv
8+阅读 · 2018年2月23日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
【2020新书】使用高级C# 提升你的编程技能,412页pdf
专知会员服务
57+阅读 · 2020年6月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
专知会员服务
124+阅读 · 2020年3月26日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【电子书】Flutter实战305页PDF免费下载
专知会员服务
22+阅读 · 2019年11月7日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
基于Prometheus的K8S监控在小米的落地
DBAplus社群
16+阅读 · 2019年7月23日
专访阿里亚顿:Serverless与BFF与前端
前端之巅
45+阅读 · 2019年5月8日
分词那些事儿
AINLP
6+阅读 · 2019年3月26日
NLP 分词的那些事儿
人工智能头条
8+阅读 · 2019年3月15日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
Neo4j 和图数据库起步
Linux中国
8+阅读 · 2017年12月20日
解析京东大数据下高效图像特征提取方案
京东大数据
4+阅读 · 2017年9月29日
相关论文
Arxiv
110+阅读 · 2020年2月5日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
6+阅读 · 2018年5月18日
Arxiv
8+阅读 · 2018年2月23日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员