阿里技能架构内部总结：HDFS监控落地的思索

发布时间：2019-11-08 23:22:13 所属栏目：建站来源：IT技术管理那些事儿

导读：Hadoop漫衍式文件体系(HDFS)被计划成得当运行在通用硬件(commodity hardware)上的漫衍式文件体系。 HDFS能提供高吞吐量的数据会见，很是得当大局限数据集上的应用。在大数据生态圈中，HDFS是最重要的底层漫衍式文件体系，它的不变性关乎整个生态体系的康健

副问题[/!--empirenews.page--]

Hadoop漫衍式文件体系(HDFS)被计划成得当运行在通用硬件(commodity hardware)上的漫衍式文件体系。

HDFS能提供高吞吐量的数据会见，很是得当大局限数据集上的应用。在大数据生态圈中，HDFS是最重要的底层漫衍式文件体系，它的不变性关乎整个生态体系的康健。

本文先容了HDFS相干的重要监控指标，分享指标背后的思索。

一、HDFS监控挑衅

HDFS是Hadoop生态的一部门，监控方案不只需合用HDFS，其他组件如Yarn、Hbase、Hive等，也需合用

HDFS API提供的指标较多，部门指标没须要及时收罗，但妨碍时需能快速获取到

Hadoop相干组件的日记，较量重要，如题目定位、审计等

监控方案不只能满意监控自己，妨碍定位涉及指标也应包围

二、Hadoop监控方案

Hadoop监控数据收罗是通过HTTP API，可能JMX。现实中，用到较量多的产物首要有：CDH、Ambari，另外，尚有部门器材，如Jmxtrans、HadoopExporter(用于Prometheus)。

CDH是一款开源的集陈设、监控、操纵便是一体的Hadoop生态组件打点器材，也提供收费版(比免费版多提供数据备份规复、妨碍定位等特征)。CDH提供的HDFS监控界面在体验上长短常优越的，是对HDFS监控指标深入掘客之后的浓缩，好比HDFS容量、读写流量及耗时、Datanode磁盘革新耗时等。

CDH提供的HDFS监控界面

Ambari与CDH相同，同样是开源器材，但它的扩展性要较量好，其它，它的信息可以从呆板、组件、集群等差异维度揭示，靠近运维工程师行使风俗。

Ambari提供的HDFS监控界面

假如行使CDH，可能Ambari举办HDFS监控，也存在现实题目：

对应的Hadoop及相干组件版本不能自界说
不能很好的满意大局限HDFS集群现实监控需求

其他器材，如Jmxtrans今朝还不能很好适配Hadoop，因此，现实的监控方案选型为：

收罗：HadoopExporter，Hadoop HTTP API(声名：HDFS首要挪用http://{domain}:{port}/jmx)
日记：通过ELK来网络、说明
存储：Prometheus
揭示：Grafana，HDFS UI，Hue
告警：对接京东云告警体系

三、HDFS监控指标

1、首要指标概览

HDFS首要监控指标概览

2、黑盒监控指标

根基成果

文件整个生命周期中，是否存在成果非常，首要监控建设、查察、修改、删除举措。

查察时，需校对内容，有一种方法，可以在文件中写入时刻戳，查察时校对时刻戳，这样，可以按照时刻差来判定是否写超时

牢记担保生命周期完备，不然，大量监控发生的姑且文件也许导致HDFS集群垮掉

3、白盒监控指标

1)错误

Block丢失数目

收罗项：MissingBlocks

假如呈现块丢失，则意味着文件已经破坏，以是必要在块丢失前，提前预判也许呈现Block丢失风险(通过监控UnderReplicatedBlocks来判定)。

不行用数据节点占比

收罗项：

在BlockPlacementPolicyDefault.java中的isGoodTarget界说了选取Datanode节点计策，个中有两项是“节点是否在下线”、“是否有足够存储空间”，假如不行用数目过多，则也许导致选择不到康健的Datanode，因此，必需担保必然数目的康健Datanode。

选取可用Datanode时部门判定前提

错误日记要害字监控

部门常见错误监控(首要监控Exception/ERROR)，对应要害字：

IOException、NoRouteToHostException、SafeModeException、UnknownHostException。

未复制Block数

收罗项：UnderReplicatedBlocks

UnderReplicatedBlocks在数据节点下线、数据节点妨碍等均会发生大量正在同步的块数。

FGC监控

收罗项：FGC

读写乐成率

收罗项：

monitor_write.status/monitor_read.status

按照Block现实读写流量汇聚计较，是对外SLA指标的重要依据。

数据盘妨碍

收罗项：NumFailedVolumes

假如一个集群有1000台主机，每台主机是12块盘(一样平常存储型呆板尺度设置)，那么这将会是1万2000块数据盘，凭证机器盘均匀季度妨碍率1.65%(数据存储处事商Backblaze统计)计较，均匀每个月妨碍7块盘。若集群局限再扩大，那么运维工程师将淹灭很大精神在妨碍盘处理赏罚与处事规复上。很显然，一套自动化的数据盘妨碍检测、自动报修、处事自动规复机制成为刚需。

除妨碍盘监控外，妨碍数据盘要有全局性办理方案。在实践中，以场景为维度，通过自助化的方法来实现对此题目处理赏罚。