HBase集群监控那些事儿

会员服务 ·

HBase集群监控那些事儿

2017 年 10 月 25 日 CSDN大数据 Zhisheng Tian

为什么需要监控？

为了保证系统的稳定性，可靠性，可运维性。

掌控集群的核心性能指标，了解集群的性能表现；
集群出现问题时及时报警，便于运维同学及时修复问题；
集群重要指标值异常时进行预警，将问题扼杀在摇篮中，不用等集群真正不可用时才采取行动；
当集群出现问题时，监控系统可以帮助我们更快的定位问题和解决问题。

如何构建 HBase 集群监控系统？

公司有自己的监控系统，我们所要做的就是将 HBase 中我们关心的指标项发送到监控系统去，问题就转换为我们开发，采集并返回哪些 HBase 集群监控指标项。

HBase 集群监控指标

采集的监控数据主要包括以下几个方面：某台机器 OS 层面上的数据，例如 CPU、内存、磁盘、网络、load、网络流量等；某台 regionserver（或master）机器 jvm 的状态，例如关于线程的信息，GC 的次数和时间，内存使用状况，以及 ERROR、WARN、Fatal 事件出现的次数；regionserver（或 master）进程中的统计信息。

可以通过以下地址获取 HBase 提供的 JMX 信息的 web 页面

JMX web 页面的数据格式是json格式，信息很多！

OS 监控数据

HBase 中对于 OS 的监控数据，主要是 OperatingSystem 的对象来进行的，如下就是我提取出来的 JSON 信息。

其中比较重要的指标有 OpenFileDescriptorCount , FreePhysicalMemorySize , ProcessCpuLoad , SystemCpuLoad , AvailableProcessors , SystemLoadAverage

JVM 监控数据

Hbase 中对于 JVM 的监控数据，主要是 JvmMetrics 的对象来进行的，如下就是我提取出来的 JSON 信息，

JvmMetrics 主要统计的信息包括：内存的使用状态信息；GC的统计信息；线程的统计信息；以及事件的统计信息。

内存的统计信息主要是：JVM 当前已经使用的 NonHeapMemory 的大小、以及配置的 NonHeapMemory 的大小；JVM 当前已经使用的 HeapMemory 的大小、以及配置的 HeapMemory 的大小； JVM 运行时的可以使用的最大的内存的大小。

GC 的统计较为简单，仅统计了进程在固定间隔内 GC 的次数和花费的总时间。

线程的统计，主要是统计进程内当前线程的处于 NEW 、RUNNABLE、BLOCKED、WAITING、TIMED_WAITING、TERMINATED 这六种状态下的线程数量。

对于事件的统计，主要统计固定时间间隔内的 Fatal、Error、Warn 以及 Info 的数量。(这块好像不怎么重要)

REGION SERVERS 健康

你也可以通过如下地址：

获得到 Region Servers 健康值：

MEMORYPOOL

从全部的 JSON 值中你会看到很多种 MemoryPool 值，比如 Par Eden Space 、CMS Perm Gen、Par Survivor Space、CMS Old Gen、Code Cache ，按需获取吧。

总结

任何一个服务的监控系统都是一个不断迭代，不断优化的过程，不可能一开始就做到最好。监控总是比问题发生来的更早一些，而每一次出问题，又进一步加强相应方面的监控，我们需要让监控系统从出问题时才报警到可能出现问题时就预警逐渐过渡，最终让监控系统成为我们保证系统稳定性的一个有力工具。

最后，监控指标有很多，但请按需获取 !

参考资料

hbase性能监控（一）
https://www.tuicool.com/articles/zQNrM3
hbase性能监控（二）
https://www.tuicool.com/articles/YbQbIj
hbase性能监控（三）
https://www.tuicool.com/articles/imArAb
HBase 集群监控系统构建
https://blog.bcmeng.com/post/hbase-monitor.html
hbase jmx常用监控指标
http://blog.csdn.net/englishsname/article/details/53883682

作者：Zhisheng Tian

来源：http://www.54tianzhisheng.cn/2017/10/21/HBase-metrics/

登录查看更多

相关内容

集群监控

关注 1

集群系统投入生产环境后，这时就需要一套可视化的工具来监视集群系统，这将有助于我们迅速地了解机群的整体配置情况，准确地把握机群各个监控节点的信息，全面地察看监控节点的性能指标，使机群系统具有较高的管理性。监视系统的主要目标是从各个监控节点采集监控信息，如CPU温度、CPU利用率、用户数、进程数、内存利用率等，然后将获取的监控信息汇集起来，便于综合分析和处理，最后根据分析和处理的结果做出相应的决策。本文以占用系统资源最少的、开放源代码的Ganglia为平台，详细讲解了如何搭建一个具有更高可靠性的集群监控系统。

【2020新书】使用高级C# 提升你的编程技能，412页pdf

专知会员服务

60+阅读 · 2020年6月26日

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

专知会员服务

96+阅读 · 2020年6月8日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日