加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

如何做好一次故障演练?

发布时间:2019-04-19 00:45:08 所属栏目:移动互联 来源:猿奋
导读:本文转载自微信公家号「随猿记」,转载本文请接洽随猿记公家号。 为什么要举办妨碍演练? 陪伴着海量哀求、节沐日峰值流量和一日千里的体系伟大度一路呈现的,很有也许是预料之中以及料想之外的各类妨碍。在许多环境下,因为事情处理赏罚预案的缺失可能预案自己
副问题[/!--empirenews.page--]

本文转载自微信公家号「随猿记」,转载本文请接洽随猿记公家号。

为什么要举办妨碍演练?

陪伴着海量哀求、节沐日峰值流量和一日千里的体系伟大度一路呈现的,很有也许是预料之中以及料想之外的各类妨碍。在许多环境下,因为事情处理赏罚预案的缺失可能预案自己的不行靠,以及开拓职员妨碍处理赏罚履历的缺失,造成在各类报警之中自乱了阵脚,从而贻误了最佳战机。出格是一些平常线上没呈现过的非常妨碍,一旦溘然呈现,每每措手不及。

体系是否足够结实?是否有足够的手段应对妨碍的产生?对面对妨碍时会呈现什么举动?我们并不但愿真正线上呈现妨碍时才去验证这些题目,这样风险太大,本钱太大。以是但愿在线上情形断绝真实流量的环境下,提前模仿发生各类任何也许产生的妨碍,来调查体系的回响,验证预期计策。

总结一下,妨碍演练首要有以下几个方针:

  1. 确保体系按我们预想的方法应对妨碍
  2. 探求体系中未预推测的瑕玷
  3. 探求其他进步体系鲁棒性的方法来停止事情现实产生

抱负环境是到达如下贱程化: 例行化妨碍演练、找出体系风险点、优化营业体系、产出可行有用的妨碍处理赏罚预案

怎样做好一次妨碍演练?

什么是妨碍演练?

妨碍演练是应用高可用手段测评的焦点,一次完备的妨碍演练由演练的工具、工具产生的详细妨碍、应用的预期妨碍应对示意、对应用示意的现实调查和判定几部门构成。

怎样做好一次妨碍演练?

(1)演练的工具

演练的工具即演练的位置,可以针对应用自己,可以针对应用下流,也可以针对应用地址呆板

(2)工具产生的详细妨碍

常见的妨碍范例有以下一些:

怎样做好一次妨碍演练?

(3)应用的预期妨碍应对示意

也就是预案,针对每种要演练的妨碍环境,拟定妨碍应对预案,预案模板参考:

怎样做好一次妨碍演练?

链路/场景妨碍能否演练影相应对预案操纵 SOP实验预案后的影响预案扫除前提预案扫除 SOP预案实验失败的应对方案

(4)对应用示意的现实调查和判定

这个可以在监控体系上调查应用的各项指标示意,好比非常解决,流量解决,营业曲线,呆板机能等一系列也许受妨碍影响的处所。

妨碍演练怎么做?

妨碍演练前

1. 搜查必备基本手段

  • 必要应器具备在营业链路中完备转达染色标志流量的手段
  • 必要应器具备模仿下流依靠办事情障的手段
  • 必要应器具备哀求流量录制回放断绝的手段

2. 确定妨碍演练范畴、情形

(1) 要对哪些哀求流量注入妨碍?

  • 决定原则:

选择焦点营业链路的哀求流量

  • 保举做法:

链路说明,标志出焦点营业链路

(2) 要模仿哪些下流处事的妨碍?

  • 决定原则:

此下流处事产生妨碍的机率大

此下流处事产生妨碍时影响的营业范畴广

此下流处事产生妨碍的会影响焦点营业

此下流处事产生妨碍时能拟定出可行的应对方案

  • 保举做法:

依靠链路说明,确定营业链路中依靠了哪些下流处事

反向依靠说明,确定下流办事情障会影响哪些营业链路,评估影响的营业范畴

(3) 在哪个应用情形模仿妨碍?

  • 决定原则:

所选情形越靠近线上出产情形越好

  • 保举做法:

在线上无真实流量的呆板做妨碍演练(封锁外部真实流量)

3. 回放流量断绝和影子表断绝

  • 流量断绝
  • 影子表断绝

4. 拟定妨碍应对预案

针对每种要演练的妨碍环境,拟定妨碍应对预案

  • 预案拟定原则:

预案得有针对的妨碍或风险范例,可所以一个或多个

得确定预案在什么环境下才气启动/扫除,有什么前置要求前提

预案得确实有用,即:启动预案后,确实能减小所针对妨碍的影响范畴

确定预案开启后会造成的特殊影响,不能激发新的妨碍

5. 设置妨碍

6. 确定演练方针

  • 确定所拟定妨碍应对预案确实见效,即:启动预案后,确实能减小所针对妨碍的影响范畴
  • 确定妨碍产生时期营业流程按预期运转(通过营业指标、埋点监控、相干的营业链路追踪器材确定)
  • 确定应用呆板的负载指标在预期范畴内(通过各类基本器材的告警确定)

(按照自身营业特点配置更多的搜查点)

7. 培训参加的内部职员

8. 关照涉及的外部职员

按照评估出的影响范畴关照相干营业应用 RD、运维 RD、基本组件 RD。关照内容要素:

  • 妨碍演练的提倡应用
  • 妨碍演练起止时刻
  • 妨碍演练应用集群情形
  • 对每个相干应用的影响预估。好比:对下流依靠处事的挪用峰值 QPS、上游处事收到的非常哀求比率

保举做法:

将全部相干职员拉入一个事变群,群名「XXX应用妨碍演练」,在群里发送妨碍演练关照、组织协同

妨碍演练中

1.将录制的线上流量慢慢加压回放到妨碍演练的提倡应用中的无真实流量呆板

2.开启应用的妨碍模仿开关,调查妨碍影响

留意:为确保不影响真实流量,仅对染色流量产生妨碍

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读