加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

阿里技能架构内部总结:HDFS监控落地的思索

发布时间:2019-11-08 23:22:13 所属栏目:建站 来源:IT技术管理那些事儿
导读:Hadoop漫衍式文件体系(HDFS)被计划成得当运行在通用硬件(commodity hardware)上的漫衍式文件体系。 HDFS能提供高吞吐量的数据会见,很是得当大局限数据集上的应用。在大数据生态圈中,HDFS是最重要的底层漫衍式文件体系,它的不变性关乎整个生态体系的康健
副问题[/!--empirenews.page--]

Hadoop漫衍式文件体系(HDFS)被计划成得当运行在通用硬件(commodity hardware)上的漫衍式文件体系。

阿里技能架构内部总结:HDFS监控落地的思索

HDFS能提供高吞吐量的数据会见,很是得当大局限数据集上的应用。在大数据生态圈中,HDFS是最重要的底层漫衍式文件体系,它的不变性关乎整个生态体系的康健。

本文先容了HDFS相干的重要监控指标,分享指标背后的思索。

一、HDFS监控挑衅

HDFS是Hadoop生态的一部门,监控方案不只需合用HDFS,其他组件如Yarn、Hbase、Hive等,也需合用

HDFS API提供的指标较多,部门指标没须要及时收罗,但妨碍时需能快速获取到

Hadoop相干组件的日记,较量重要,如题目定位、审计等

监控方案不只能满意监控自己,妨碍定位涉及指标也应包围

二、Hadoop监控方案

Hadoop监控数据收罗是通过HTTP API,可能JMX。现实中,用到较量多的产物首要有:CDH、Ambari,另外,尚有部门器材,如Jmxtrans、HadoopExporter(用于Prometheus)。

CDH是一款开源的集陈设、监控、操纵便是一体的Hadoop生态组件打点器材,也提供收费版(比免费版多提供数据备份规复、妨碍定位等特征)。CDH提供的HDFS监控界面在体验上长短常优越的,是对HDFS监控指标深入掘客之后的浓缩,好比HDFS容量、读写流量及耗时、Datanode磁盘革新耗时等。

阿里技能架构认真人内部总结:HDFS监控落地的思索

CDH提供的HDFS监控界面

Ambari与CDH相同,同样是开源器材,但它的扩展性要较量好,其它,它的信息可以从呆板、组件、集群等差异维度揭示,靠近运维工程师行使风俗。

阿里技能架构认真人内部总结:HDFS监控落地的思索

Ambari提供的HDFS监控界面

假如行使CDH,可能Ambari举办HDFS监控,也存在现实题目:

  • 对应的Hadoop及相干组件版本不能自界说
  • 不能很好的满意大局限HDFS集群现实监控需求

其他器材,如Jmxtrans今朝还不能很好适配Hadoop,因此,现实的监控方案选型为:

  • 收罗:HadoopExporter,Hadoop HTTP API(声名:HDFS首要挪用http://{domain}:{port}/jmx)
  • 日记:通过ELK来网络、说明
  • 存储:Prometheus
  • 揭示:Grafana,HDFS UI,Hue
  • 告警:对接京东云告警体系

三、HDFS监控指标

1、首要指标概览

阿里技能架构认真人内部总结:HDFS监控落地的思索

HDFS首要监控指标概览

2、黑盒监控指标

根基成果

文件整个生命周期中,是否存在成果非常,首要监控建设、查察、修改、删除举措。

查察时,需校对内容,有一种方法,可以在文件中写入时刻戳,查察时校对时刻戳,这样,可以按照时刻差来判定是否写超时

牢记担保生命周期完备,不然,大量监控发生的姑且文件也许导致HDFS集群垮掉

3、白盒监控指标

1)错误

Block丢失数目

收罗项:MissingBlocks

假如呈现块丢失,则意味着文件已经破坏,以是必要在块丢失前,提前预判也许呈现Block丢失风险(通过监控UnderReplicatedBlocks来判定)。

不行用数据节点占比

收罗项:

阿里技能架构认真人内部总结:HDFS监控落地的思索

在BlockPlacementPolicyDefault.java中的isGoodTarget界说了选取Datanode节点计策,个中有两项是“节点是否在下线”、“是否有足够存储空间”,假如不行用数目过多,则也许导致选择不到康健的Datanode,因此,必需担保必然数目的康健Datanode。

阿里技能架构认真人内部总结:HDFS监控落地的思索

选取可用Datanode时部门判定前提

错误日记要害字监控

部门常见错误监控(首要监控Exception/ERROR),对应要害字:

IOException、NoRouteToHostException、SafeModeException、UnknownHostException。

未复制Block数

收罗项:UnderReplicatedBlocks

UnderReplicatedBlocks在数据节点下线、数据节点妨碍等均会发生大量正在同步的块数。

FGC监控

收罗项:FGC

读写乐成率

收罗项:

monitor_write.status/monitor_read.status

按照Block现实读写流量汇聚计较,是对外SLA指标的重要依据。

数据盘妨碍

收罗项:NumFailedVolumes

假如一个集群有1000台主机,每台主机是12块盘(一样平常存储型呆板尺度设置),那么这将会是1万2000块数据盘,凭证机器盘均匀季度妨碍率1.65%(数据存储处事商Backblaze统计)计较,均匀每个月妨碍7块盘。若集群局限再扩大,那么运维工程师将淹灭很大精神在妨碍盘处理赏罚与处事规复上。很显然,一套自动化的数据盘妨碍检测、自动报修、处事自动规复机制成为刚需。

除妨碍盘监控外,妨碍数据盘要有全局性办理方案。在实践中,以场景为维度,通过自助化的方法来实现对此题目处理赏罚。

阿里技能架构认真人内部总结:HDFS监控落地的思索

基于场景实现的Jenkins自助化使命

2)流量

Block读、写次数

收罗项:

阿里技能架构认真人内部总结:HDFS监控落地的思索

收罗Datanode数据举办汇聚计较。

收集收支流量

收罗项:node_network_receive_bytes_total/ node_network_transmit_bytes_total

没有直接可以行使的现成数据,必要通过ReceivedBytes(吸取字节总量)、SentBytes(发送字节总量)来计较。

磁盘I/O

收罗项:node_disk_written_bytes_total/ node_disk_read_bytes_total

3)耽误

RPC处理赏罚均匀时刻

收罗项:RpcQueueTimeAvgTime

收罗RpcQueueTimeAvgTime(RPC处理赏罚均匀时刻)、SyncsAvgTime(Journalnode同步耗时)。

慢节点数目

收罗项:SlowPeerReports

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读