实战课堂 | 仅需5分钟!手把手教你搭建企业监控告警系统

2019 年 11 月 6 日 阿里巴巴数据库技术

前言

监控告警系统是每一家企业都需要的系统。系统的监控运维告警可以帮助企业快速发现系统故障,定位故障和处理故障,对企业业务稳定性起到至关重要的作用。业务监控系统可以实时进行业务告警,进行业务趋势的分析和判断,对于数据化运营起到重要的帮助。

阿里云InfluxDB 提供了一整套快速搭建监控系统的组件和功能,可以帮助企业快速搭建监控系统。2019年8月商业化以来,依靠稳定可靠的服务能力和免运维等特性,在监控领域受到很多用户关注,近期更是进行了重磅升级,集成了Grafana可视化服务


本文将以Linux系统指标监控为例,展示如何基于 阿里云InfluxDB® 服务快速搭建一个监控系统。这里假设用户已经购买了阿里云InfluxDB®实例,并且创建了名为 telegraf 的数据库以及管理员账号 admin (也可以使用对该库有读写权限的非管理员账号)。
如果您还没有开启阿里云InfluxDB®服务,可以进入官网购买,数据库和账号如何创建请参考阿里云文档 https://help.aliyun.com/document_detail/113095.html
基于阿里云InfluxDB搭建监控系统可以分为二个简单的步骤即可完成。

1、配置数据源

2、配置Grafana 仪表盘

接下来,我们就开始基于这两个步骤快速实践一下。出于展示目的,本文使用的操作系统为CentOS 7,yum作为包管理工具,Ubuntu/Debian用户可以用dpkg等工具完成类似操作。接下来我们实际操作一下。

配置数据采集

主机的系统监控需要安装telegraf作为agent进行指标采集。telegraf是开源的指标采集工具,内用占用小,安装部署简便,下面几部就可以完成。如果有多台主机需要监控,在每台主机上执行下面的步骤即可,在最后的监控仪表盘总可以使用下来列表来选择主机信息。

1


Step 1: 安装telegraf
这里使用的是当前的最新稳定版本telegraf 1.12.4:
*请左右滑动阅览
   
   
     
yum install -y https://dl.influxdata.com/telegraf/releases/telegraf-1.12.4-1.x86_64.rpm


2
 Step 2: 配置telegraf
Telegraf配置文件的路径为 /etc/telegraf/telegraf.conf ,使用文本编辑器(比如vim)对这个文件进行编辑,配置内容如下:
*请左右滑动阅览
   
   
     
# 采集插件
[[inputs.cpu]]  
  percpu =  true
  totalcpu =  true
  collect_cpu_time =  false

[[inputs.disk]]
  mount_points = [ "/"]
  ignore_fs = [ "tmpfs""devtmpfs"]

[[inputs.diskio]]
  devices = [ "vda"] # 这里配置需要采集的磁盘设备

[[inputs.kernel]]

[[inputs.mem]]

[[inputs.processes]]

[[inputs.swap]]

[[inputs.system]]

[[inputs.net]]
  interfaces = [ "eth0"]

[[inputs.netstat]]

# influxdb 配置
[[outputs.influxdb]]
  urls = [ "https://ts-xxxxxxxxxx.influxdata.rds.aliyuncs.com:3242"] # influxdb实例的公网访问地址 
  database =  "telegraf"
  username =  "admin"
  password =  "yourpassword"
注意在 [[outputs.influxdb]] 部分设置阿里云InfluxDB®实例的访问地址,数据写入的数据库名,以及访问数据库的账号信息。

3
Step 3: 启动telegraf
配置文件编辑保存好,使用下面的命令启动telegraf服务,主机指标数据就可以写入到InfluxDB®中了。
   
   
     
systemctl  start  telegraf .service
配置Grafana
Grafana是流行的开源时序分析平台,采用go语言编写,当前活跃安装数高达40万,可以说是监控场景的标配组件了。Grafana支持多种流行的数据源,比如InfluxDB、Prometheus、OpentTSDB、Graphite等;
可视化方面Grafana提供了酷炫的图表,用户可以动态创建仪表盘(dashboard),支持模板变量作为下拉列表; 数据探索(Explore)页面允许用户使用ad-hoc查询在数据源上进行数据分析,并且提供了语句自动补全等贴心功能; 支持邮件、webhook等多种报警通道,用户可以自定义报警规则。
阿里云将Grafana监控可视化与InfluxDB®的存储分析能力无缝对接,让用户无需部署和运维就可以在快速搭建一个监控系统,并且不需要支付额外费用。
4

Step 4: 配置Grafana数据源源

要使用Grafana,需要配置与InfluxDB®数据库相关联的数据源,我们在 telegraf 库上创建一个名为 my-datasource 的数据源,具体步骤参考文档,这里不重复了。
5
Step 5: 创建仪表盘
用户可以使用查询语句创建仪表盘,为每个panel定义查询语句和展示方式;实际上多数场景下不需要这么麻烦,因为官方社区中有很多优秀的仪表盘模板(https://grafana.com/grafana/dashboards),可以很好的满足需求。
比如我们要配置的Linux主机监控,可以直接使用Linux System Overview  这个仪表盘:
而我们要做的只是记住2381这个dashboard ID。
从阿里云InfluxDB®控制台打开Grafana访问地址,登录之后即可进入仪表盘管理界面:
在仪表盘管理界面,点击Import按钮进入Import页面,输入这个ID即可:
输入ID后,Grafana会自动识别,进入选项页面,进行数据源的配置,这里我们选择之前创建好的数据源  my-datasource
然后点击Import,仪表盘就创建好了!
总结
本文展示了如何基于阿里云InfluxDB®服务快速搭建一个主机监控系统,指标数据通过telegraf进行采集,数据写入到InfluxDB®进行存储,Grafana作为前端进行可视化展示,用户也可以根据自己的需求在Grafana配置报警。阿里云InfluxDB®提供的Grafana服务为用户降低了运维和硬件成本,与InfluxDB的存储分析能力相得益彰,为监控领域的用户提供了一个绝佳的选择。
阿里云InfluxDB®推出了 一元购限时 优惠 活动,新用户可以首月一元体验,规格选择4c16G即可





双十一还不知道买什么?
阿里云数据库双11 爆款直降
这份购物清单 ⬇️给你拿去!  


想知道双十一前 互联网人的日常 吗?
点击 阅读原文
6段故事,6句运营黑话
带你窥探互联网人的一天

阿里巴巴数据库技术

微信:alibabadba



分享数据库前沿 

解构实战干货

长按二维码关注

登录查看更多
1

相关内容

阿里云(阿里云-为了无法计算的价值)创立于2009年,是全球领先的云计算及人工智能技术公司,为全球200多个国家和地区的创新创业企业、政府机构等提供服务。

阿里云致力于提供安全、可靠的计算和数据处理能力,让计算成为普惠科技和公共服务,为万物互联的DT世界提供源源不断的新能源。阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算支持不同的互联网应用。目前,阿里云在中国、新加坡、美西、美东等地域设有数据中心。

【2020新书】实战R语言4,323页pdf
专知会员服务
101+阅读 · 2020年7月1日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
162+阅读 · 2020年5月14日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
68+阅读 · 2020年3月9日
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
36+阅读 · 2019年12月15日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
滴滴离线索引快速构建FastIndex架构实践
InfoQ
21+阅读 · 2020年3月19日
Kaggle实战,10 分钟开启机器学习之路
机器学习算法与Python学习
4+阅读 · 2019年5月17日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
如何用GitLab本地私有化部署代码库?
Python程序员
9+阅读 · 2018年12月29日
手把手教你搭建智能客服系统
InfoQ
13+阅读 · 2018年4月3日
实战 | 40行代码实现人脸识别
七月在线实验室
3+阅读 · 2018年3月7日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
3+阅读 · 2018年5月20日
Arxiv
12+阅读 · 2018年1月11日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
101+阅读 · 2020年7月1日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
162+阅读 · 2020年5月14日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
68+阅读 · 2020年3月9日
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
36+阅读 · 2019年12月15日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
相关资讯
滴滴离线索引快速构建FastIndex架构实践
InfoQ
21+阅读 · 2020年3月19日
Kaggle实战,10 分钟开启机器学习之路
机器学习算法与Python学习
4+阅读 · 2019年5月17日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
如何用GitLab本地私有化部署代码库?
Python程序员
9+阅读 · 2018年12月29日
手把手教你搭建智能客服系统
InfoQ
13+阅读 · 2018年4月3日
实战 | 40行代码实现人脸识别
七月在线实验室
3+阅读 · 2018年3月7日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
Top
微信扫码咨询专知VIP会员