容器云平台API Server卡顿题目排查
副问题[/!--empirenews.page--]
58云计较平台是58团体架构线基于Kubernetes + Docker技能为团体内部处事开拓的一套营业实例打点平台,它具有简朴,轻量的特点及高效操作物理资源,更快的陈设和同一类型的尺度化运行情形,通过云平台,使得处事尺度化,上线流程类型化,资源操作公道化。然而云平台的建树进程不是一帆风顺,也不乏呈现一些题目挑衅,本文就针对云平台实际中碰着的一个题目和各人分享。 1、关于题目 1.1 题目概述 近期,许多营业同事反馈行使云平台上线存在容器陈设慢,平台回响慢的题目。通过具体的题目排查定位后,最终题目得以办理。 1.2 Kubernetes根基常识 私有云平台通过Kubernetes对容器举办编排。Kubernetes整体架构如下图所示: 个中几个首要的模块的成果扼要描写如下:
营业同事操纵打点平台发出建设集群哀求到集群建设完成的整个流程如下:
2. 定位题目 2.1 题目排查 从1.2可以看到,API Server在建设Pod进程中起到很是要害的中间桥梁浸染,理会外部哀求及读写etcd。因此抉择起首从API Server历程地址宿主机的各项机能指标及日记方面举办排查,看是否有所发明。 今朝线上情形有3台主机运行API Server,以到达流量负载平衡的目标,非常时刻段网卡eth2入流量如下图所示: 由3台API Server主机的监控数据,发明处事器A的网卡入流量远高于其它两台,声名绝大部门哀求发送到了处事器A。 通过比拟三台处事器API Server 的CPU操作率,发明处事器A的API Server历程CPU行使率一向保持在2000%(20核)上下颠簸,而其它两台处事器的API Server的CPU操作率没有高出100%(1核)。进一步证实了A的API Server历程处理赏罚了绝大大都的哀求。 查察A处事器的API Server的相干log,发明正在大量输出如下的日记: 这个日记表现有大量哀求通过API Server到etcd查询Pod的状态。 对付Kubernetes后端的存储今朝回收5个etcd节点构成etcd集群。登岸个中一个节点(E1),发明对E1节点执行etcd操纵呼吁,好比呼吁:“etcdctl ls /registry/pods/default”,呼吁执行也会常常超时。假如你想和更多Kubernetes技能专家交换,可以加我微信liyingjiese,备注『加群』。群里每周都有环球各大公司的最佳实践以及行业最新动态。 同时比拟5台etcd节点的流量,发明有一个节点网卡入流量远高于其他四个节点,该节点(E1)的etcd历程的CPU操作率在100%阁下,明明高于剩余的4个节点CPU操作率。查察节点E1的etcd历程日记,常常看到如下报错: 可以揣度节点E1的负载很是高,节点间同步心跳都已经超时,无法正常的相应外部的哀求了。 2.2 题目说明 颠末上述排查,首要齐集在这两个题目上: 2.2.1负载平衡计策失效 起首可以看到对Kubernetes集群的操纵哀求大部门都落在某个API Server上,导致个中一个API Server负载很高,那么有也许负载平衡计策有些题目。那就先看看当前负载平衡计策是怎样的。 当前我们租赁的是腾讯的机房,负载平衡计策回收的是TGW(Tencent Gateway)体系所自带支持的负载平衡计策。腾讯云上有关先容如下: TGW负载平衡计策担保哀求的分摊转发,也会自动对resource server(RS)举办存活检测,每分钟会有意跳包去对接入TGW的IP Port举办探测。 关于TGW相干设置详细如下:
(编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |