加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

这一次,除了骂阿里云,还能做些什么?

发布时间:2019-03-06 13:46:41 所属栏目:建站 来源:58沈剑
导读:许多伴侣经验了前几天阿里云3小时阁下的妨碍,我司的营业也受到了必然影响,技能的同事一路熬夜奋战,最终调查处事不变运行了两个多小时,直到破晓五六点多才逐渐登出VPN。 一次事情如一场战争,不管是在妨碍进程中的处理赏罚,照旧妨碍后的总结,除了骂阿里云

许多伴侣经验了前几天阿里云3小时阁下的妨碍,我司的营业也受到了必然影响,技能的同事一路熬夜奋战,最终调查处事不变运行了两个多小时,直到破晓五六点多才逐渐登出VPN。

一次事情如一场战争,不管是在妨碍进程中的处理赏罚,照旧妨碍后的总结,除了骂阿里云,我们本身有没有可以改造的空间呢?团结我司昨夜的处理赏罚进程,说一下本身的一点设法。

画外音:技强人,照旧聊技能,抉择不了别人,我们做好本身。

这一次,除了骂阿里云,还能做些什么?

破晓,收到运维认真人的电话,阿里云部门机房妨碍,并从阿里云同事收到反馈,题目仍在定位,规复时刻不确认。

画外音:要害时候,手机欠费了,运维认真人还帮我充了200话费,才买通,真曲折。

整个进程中,我们能做什么呢?

  • 第一时刻反馈营业方:譬喻客服,运营等,假如收到用户反馈,可以或许实时声名环境;
  • 确定影响范畴:由于不是全部处事器都受影响,确定范畴后好针对性搜查;

这内里,隐藏的技能题目是:

  • 运维在第一时刻收随处事器告警了么,研发与测试在第一时刻收到站点与处事告警了么?为什么没有收到,是没有告警,照旧告警包围缺失?

画外音:假如让营业方先发明题目,反问技能部,处事怎么出题目了,是多么忧伤?

  • 可以或许快速确定受影响的处事器IP么?以及受影响的营业范畴么?

我们的运维同窗立即通过剧本,确定了或许有50来台处事器受影响。

DBA同窗也立即确认了,RDS数据库处事没有受到影响。

画外音:

  • 将来要自动化,可视化;
  • 除了能以前端发明A、B、C成果不行用,能从后端精精确定哪些处事,多大比例的流量受影响么?

隐藏的非技能题目:

  • 技能团队和营业方成立了反馈渠道么,雷同是否顺畅?
  • 有没有“线上处事第一”的意识,有没有“体系值班”的制度,照旧说,关着手机睡觉?

画外音:

  • 昨晚绝大大都二级,三级部分认真人都第一时刻投入战斗,很赞;
  • 技强人,关着手机睡觉,是不行接管的。

过了一个多小时了,阿里云仍未反馈修复时刻,这个时刻各人都有点着急了,那除了干等着,我们本身能做些什么呢?

由于只有部门地区的处事器非常,能不能申请一些新的处事器,将受影响处事器上的站点与处事从头陈设,通过处事管理将流量切到新的处事上,是不是能规复(至少部门规复)呢?

整个进程中,我们能做的是:

  • 申请新处事器;
  • 确认受影响的站点与处事、从头陈设;
  • 处事管理,将流量迁徙;

这内里,隐藏的技能题目是:

(1) 能不能快速举办处事器扩容;

画外音:昨晚我们迅猛购置了50台ECS,这是云的甜头。

(2) 知道了受影响的处事器IP,怎样可以或许快速确定这些IP上陈设了哪些站点与处事?这些站点与处事的上下流是什么,连带影响范畴是什么?

画外音:这是有待进步的处所,每个认真人都知道本身的IP上陈设了什么,但并不行视化。

(3) 怎样快速站点与处事扩容与缩容,如那里事发明,怎样迁徙流量?

画外音:处事管理,任重道远。

又过了或许半个小时,我们购置完处事器,梳理站点与处事的进程中,阿里云专家反馈,“题目定位有了要害盼望,不出不测的话30分钟规复”。此时我们内部评估,30分钟50台ECS的初始化,处事陈设,流量迁徙生怕完不成,照旧等阿里云好了。

果然或许半个小时,阿里云专家反馈规复了,这时我们要做的:

  • 确定站点与处事是否运行;
  • 确定日记是否非常;
  • 确定营业在线营业是否非常;
  • 一些轻易漏掉的点的再三搜查:譬喻MQ的斲丧,按时使命的执行。

画外音:有些按时使命也许必要手动再次执行。

这内里的许多事变,是通过手工,照旧剧本自动化,照旧平台可视化来判定与执行?技能平台的迭代,仍重而道远。

处事调查不变后一段机缘,大部门技能同窗陆延续续登出VPN下线了。伴侣圈、微博上开始对阿里云举办声讨,都在提本身的优化方案:

1. 是时辰换一个云了;

换一个云能办理题目么?用其他云的伴侣,可以评述反馈下妨碍频率。

我信托,各家有各家的题目,我乃至乐意信托,阿里云的妨碍率是相对较低的。

2. 是时辰自建机房了;

自建机房能办理题目么?自建机房的伴侣,可以评述反馈下妨碍频率。

说真话,让我自建机房,我今朝真没有信念做得比阿里云更好。

3. 是时辰多机房多活了;

“多机房多活”不是四个字这么简朴,必要多大的本钱,必要几多技能基本处事支撑,必要多大的架构改革,有思量过么?

画外音:58同城15年做机房迁徙时做过多机房多活,我还算有必然讲话权。

我信托,今朝99.9%的公司,今朝的营业阶段,今朝的投入产出比,不得当做多机房多活。

骂阿里云不办理题目,这次事情进程中发明的自身的题目,我们要继承去改造。

出格是处事管理系统,可视化监控与运维系统,任重而道远。

不为阿里云洗地,阿里云你影响了我们几个小时营业可用性,该陪的要赔,只管更加赔,,让我们看到你的诚意。

画外音:谁有XX云的接口人接洽方法,请小窗我一下。

末尾,让我出格打动的一点,照旧一路熬夜奋战的兄弟姐妹们。清晨,尚有部门同窗赶去公司,要把运营反馈的纷歧致数据,举办批改。

我信托,由于有你们,营业必然能做成。

我信托,各人的支付老板必然看获得,3/4月份的涨薪必然有你。

【本文为51CTO专栏作者“58沈剑”原创稿件,转载请接洽原作者】

戳这里,看该作者更多好文

【编辑保举】

  1. 过载掩护+异构处事器的负载平衡,怎么计划?
  2. 手段与立场:以阿里云PolarDB为例
  3. 措施员锁死处事器毁掉600万游戏项目?当事人回应
  4. 剧情反转?锁死处事器的措施员发文怒怼...
  5. SLA可用性好几个9的阿里云又宕机了......
【责任编辑:赵宁宁 TEL:(010)68476606】
点赞 0

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读