一份运维监控的终极秘籍！监控不到位，宕机两行泪

发布时间：2019-02-16 15:48:35 所属栏目：创业来源：高效开发运维

导读：副问题#e# 有许多文章都提到过白盒监控和黑盒监控，以及监控的四个黄金指标。关于白盒与黑盒监控的界说，这里不再赘述。一样平常来说，白盒与黑盒别离从内部和外部来监控体系的运行状况，譬喻呆板存活、CPU 内存行使率、营业日记、JMX 等监控都属于白盒监控，而

副问题[/!--empirenews.page--]

有许多文章都提到过白盒监控和黑盒监控，以及监控的四个黄金指标。关于白盒与黑盒监控的界说，这里不再赘述。一样平常来说，白盒与黑盒别离从内部和外部来监控体系的运行状况，譬喻呆板存活、CPU 内存行使率、营业日记、JMX 等监控都属于白盒监控，而外部端口探活、HTTP 探测以及端到端成果监控等则属于黑盒监控的领域。

本文将首要从白盒监控的收罗入手，解答关于新体系怎样添加监控的题目。

黑盒与白盒监控

监控指标的收罗

设置监控时，我们主要面临的是监控数据假如收罗的题目。一样平常我们可以把监控指标分为两类：基本监控和营业监控。

基本监控

包罗 CPU、内存、磁盘、端口和历程等呆板、收集的操纵体系级此外信息。凡是环境下，成熟的监控体系（譬喻开源的 Prometheus、Zabbix 等）均会提供基本监控项的收罗手段，这里不做过多先容。但必要留意的一点，呆板级此外基本监控指标一样平常并不能代表处事的真实运行状况，譬喻单台实例的妨碍对一个计划公道的漫衍式体系来说并不会带来严峻效果。以是只有团结营业相干监控指标，基本监控指标才故意义。

营业监控

营业监控指标由营业体系内部的处事发生，一样平常可以或许真实回响营业运行状态。计划公道的系同一样平常城市提供相干监控指标供监控体系收罗。监控数据的收罗要领一样平常可以分为以下几大类。

日记：日记可以包括处事运行的方方面面，是重要的监控数据来历。譬喻，通过 Nginx access 日记可以统计堕落误（5xx）、耽误（相应时刻）和流量，团结已知的容量上限就可以计较出饱和度。一样平常除监控体系提供的日记收罗插件外，如 Rsyslog、Logstash、Filebeat、Flume 等都是较量优越的日记收罗软件。

JMX：大都 Java 开拓的处事均可由 JMX 接口输出监控指标。不少监控体系也有集成 JMX 收罗插件，除此之外我们也可通过 jmxtrans、jmxcmd 器材举办收罗。

REST：提供 REST API 来举办监控数据的收罗，如 Hadoop、ElasticSearch。

OpenMetrics：得益于 Prometheus 的风行，作为 Prometheus 的监控数据收罗方案，OpenMetrics 也许很快会成为将来监控的业界尺度。今朝绝大部门热点开源处事均有官方或非官方的 exporter 可供行使。

呼吁行：一些处事提供当地的呼吁来输出监控指标。

主动上报：对付回收 PUSH 模子的监控体系来说，处事可以采纳主动上报的方法把监控指标 push 到监控体系，如 Java 处事可行使 Metrics 接口自界说 sink 输出。其它，运维也可以行使自界说的监控插件来完成监控的收罗。

埋点：埋点是侵入式的监控数据收罗方法，其利益是其可以更机动地为我们提供营业内部的监控指标，虽然弱点也很明明：必要在代码层面下手脚（经常必要研发支持，本钱较高）。

其余方法：以上未涵盖的监控指标收罗方法，譬喻 Zookeeper 的四字呼吁，MySQL 的 show status 呼吁。

以上列出了几种常见的监控指标收罗要领，在现实事变，假如没有现成的监控收罗插件，则必要我们自行开拓收罗剧本。

监控的四个黄金指标

无论营业体系怎样伟大，监控指标怎样目眩凌乱，但万变不离其宗，监控的目标无非是为相识处事运行状况、发明办事情障和辅佐定位妨碍缘故起因。为了告竣这个目标，Google SRE 总结的监控四个黄金指标对我们添加监控具有很是重要的指导意义。下图给出四个黄金指标所包括的首要监控指标，下面我们就这四个黄金指标别离睁开声名，并给出一些监控项的收罗实例。

四个黄金指标

错误：错误是指当前体系产生的错误哀求和错误率

错误是必要在添加监控时主要存眷的指标。

在添加错误相干监控时，我们应该存眷以下几个方面：

基本监控：宕机、磁盘（坏盘或文件体系错误）、历程或端口挂掉、收集丢包等妨碍。

营业监控：

焦点成果处理赏罚错误，每种体系都有特定的焦点成果，好比 HDFS 的文件块读写、Zookeeper 对 Key 的读写和修改操纵。

基本成果单位丢失或非常，这里的基本成果单位是指一个体系成果上的根基单元，譬喻 HDFS 的 Block、Kafka 的 Message，这种基本数据的丢失一样平常城市对营业成果造成直接的影响。

Master 妨碍，对付中心化的漫衍式体系来说，Master 的康健状况都是重中之重。譬喻 HDFS 的 NameNode、Zookeeper 的 Leader，ElasticSearch 的 MasterNode。

可用节点数，对付漫衍式体系来说，可用节点数也长短常重要的，好比 Zookeeper、ETCD 等体系必要满意可用节点数大于不行用节点数才气担保成果的正常。

留意：除白盒监控外，首要成果或接口、以及内部存在明明界线的成果模块和上游依靠模块，都应该添加黑盒端到端监控。

耽误：处事哀求所需时刻

处事耽误的上升不只仅表此刻用户体验的降落，也有也许会导致哀求会萃并最终演变为整个营业体系的雪崩。

以下为耽误指标的首要存眷点：

基本监控：IO 守候、收集耽误；

营业监控：营业相干指标首要必要存眷焦点成果的相应时长。好比 Zookeeper 的耽误指标 zk_avg_latency，ElasticSearch 的索引、搜刮耽误和慢查询。

留意：与错误指标相同，白盒耽误指标凡是仅能代表体系内部耽误，提议为首要成果或接口添加黑盒监控来收罗端到端的耽误指标。

流量：当前体系的流量

流量指标可以指体系层面的收集和磁盘 IO，处事层面的 QpS、PV 和 UV 等数据。流量和突增或突减都也许预示着体系也许呈现题目（进攻变乱、体系妨碍…）。一下为流量首要存眷的方面：

基本监控：磁盘和网卡 IO；

营业监控：焦点成果流量，譬喻通过 QpS/PV/UV 等凡是可以或许代表 Web 处事的流量，而 ElasticSearch 的流量可用索引建设速度、搜刮速度暗示。

饱和度：用于权衡当前处事的操作率

更为普通的讲，饱和度可以领略为处事的操作率，可以代表体系遭受的压力。以是饱和度与流量痛痒相干，流量的上升一样平常也会导致饱和度的上升。凡是环境下，每种营业体系都应该有各自的饱和度指标。

在许多营业体系中，动静行列长度是一个较量重要的饱和度指标，，除此之外 CPU、内存、磁盘、收集等体系资源操作率也可以作为饱和度的一种浮现方法。

基本监控：CPU、内存、磁盘和收集操作率、内存仓库操作率、文件句柄数、TCP 毗连数等；

营业监控：

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

首富马斯克谈成功？他	从先行者到制定者，轻
中国互联网的新一轮机	马斯克想辞职做专业网