这一次,除了骂阿里云,还能做些什么?
许多伴侣经验了前几天阿里云3小时阁下的妨碍,我司的营业也受到了必然影响,技能的同事一路熬夜奋战,最终调查处事不变运行了两个多小时,直到破晓五六点多才逐渐登出VPN。 一次事情如一场战争,不管是在妨碍进程中的处理赏罚,照旧妨碍后的总结,除了骂阿里云,我们本身有没有可以改造的空间呢?团结我司昨夜的处理赏罚进程,说一下本身的一点设法。 画外音:技强人,照旧聊技能,抉择不了别人,我们做好本身。 一 破晓,收到运维认真人的电话,阿里云部门机房妨碍,并从阿里云同事收到反馈,题目仍在定位,规复时刻不确认。 画外音:要害时候,手机欠费了,运维认真人还帮我充了200话费,才买通,真曲折。 整个进程中,我们能做什么呢?
这内里,隐藏的技能题目是:
画外音:假如让营业方先发明题目,反问技能部,处事怎么出题目了,是多么忧伤?
我们的运维同窗立即通过剧本,确定了或许有50来台处事器受影响。 DBA同窗也立即确认了,RDS数据库处事没有受到影响。 画外音:
隐藏的非技能题目:
画外音:
二 过了一个多小时了,阿里云仍未反馈修复时刻,这个时刻各人都有点着急了,那除了干等着,我们本身能做些什么呢? 由于只有部门地区的处事器非常,能不能申请一些新的处事器,将受影响处事器上的站点与处事从头陈设,通过处事管理将流量切到新的处事上,是不是能规复(至少部门规复)呢? 整个进程中,我们能做的是:
这内里,隐藏的技能题目是: (1) 能不能快速举办处事器扩容; 画外音:昨晚我们迅猛购置了50台ECS,这是云的甜头。 (2) 知道了受影响的处事器IP,怎样可以或许快速确定这些IP上陈设了哪些站点与处事?这些站点与处事的上下流是什么,连带影响范畴是什么? 画外音:这是有待进步的处所,每个认真人都知道本身的IP上陈设了什么,但并不行视化。 (3) 怎样快速站点与处事扩容与缩容,如那里事发明,怎样迁徙流量? 画外音:处事管理,任重道远。 三 又过了或许半个小时,我们购置完处事器,梳理站点与处事的进程中,阿里云专家反馈,“题目定位有了要害盼望,不出不测的话30分钟规复”。此时我们内部评估,30分钟50台ECS的初始化,处事陈设,流量迁徙生怕完不成,照旧等阿里云好了。 果然或许半个小时,阿里云专家反馈规复了,这时我们要做的:
画外音:有些按时使命也许必要手动再次执行。 这内里的许多事变,是通过手工,照旧剧本自动化,照旧平台可视化来判定与执行?技能平台的迭代,仍重而道远。 四 处事调查不变后一段机缘,大部门技能同窗陆延续续登出VPN下线了。伴侣圈、微博上开始对阿里云举办声讨,都在提本身的优化方案: 1. 是时辰换一个云了; 换一个云能办理题目么?用其他云的伴侣,可以评述反馈下妨碍频率。 我信托,各家有各家的题目,我乃至乐意信托,阿里云的妨碍率是相对较低的。 2. 是时辰自建机房了; 自建机房能办理题目么?自建机房的伴侣,可以评述反馈下妨碍频率。 说真话,让我自建机房,我今朝真没有信念做得比阿里云更好。 3. 是时辰多机房多活了; “多机房多活”不是四个字这么简朴,必要多大的本钱,必要几多技能基本处事支撑,必要多大的架构改革,有思量过么? 画外音:58同城15年做机房迁徙时做过多机房多活,我还算有必然讲话权。 我信托,今朝99.9%的公司,今朝的营业阶段,今朝的投入产出比,不得当做多机房多活。 骂阿里云不办理题目,这次事情进程中发明的自身的题目,我们要继承去改造。 出格是处事管理系统,可视化监控与运维系统,任重而道远。 不为阿里云洗地,阿里云你影响了我们几个小时营业可用性,该陪的要赔,只管更加赔,,让我们看到你的诚意。 画外音:谁有XX云的接口人接洽方法,请小窗我一下。 末尾,让我出格打动的一点,照旧一路熬夜奋战的兄弟姐妹们。清晨,尚有部门同窗赶去公司,要把运营反馈的纷歧致数据,举办批改。 我信托,由于有你们,营业必然能做成。 我信托,各人的支付老板必然看获得,3/4月份的涨薪必然有你。 【本文为51CTO专栏作者“58沈剑”原创稿件,转载请接洽原作者】 戳这里,看该作者更多好文 【编辑保举】
点赞 0 (编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |