加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

那些年,云厂商宕机教会我们的事

发布时间:2018-07-01 22:00:42 所属栏目:云计算 来源:InfoQ
导读:北京时刻 6 月 27 日下战书,阿里云挂了。市场占据率 47.6% 的阿里云宕机,影响的是中国互联网的半壁山河。对此,坊间据说伴着吐槽声升沉不绝,乃至有人声称此次事情是由两个演习生造成。 变乱产生后,阿里云在敏捷人肉修复妨碍后,颁发声名: 对付这次妨碍
副问题[/!--empirenews.page--]

北京时刻 6 月 27 日下战书,阿里云挂了。市场占据率 47.6% 的阿里云宕机,影响的是中国互联网的半壁山河。对此,坊间据说伴着吐槽声升沉不绝,乃至有人声称此次事情是由两个演习生造成。

091527703594

变乱产生后,阿里云在敏捷人肉修复妨碍后,颁发声名:

“对付这次妨碍,没有捏词,我们不能也不应呈现这样的失误!我们将当真复盘改造自动化运维技能和宣布验证流程,敬畏每一行代码,敬畏每一份寄托。”

085740131058

云厂商宕机妨碍,这些年一向不是什么消息

2017 年 2 月 28 日,云计较巨头 AWS S3 妨碍,变乱的因由是 AWS S3(云存储)团队在举办调试时输入了一条错误指令,本应该将少部门的 S3 计费流程处事器移除,然则最终不测移除了大量处事器。被错误移除的处事个中运行着两套 S3 的子体系,从而导致 S3 不能正常事变,S3 API 处于不行用状态。

因为 S3 认真存储文件,为 AWS 系统中的焦点构成部门,这导致北弗吉尼亚日(美国东一)处事区中,依靠于 S3 存储处事的其他 AWS 的 S3 节制台、Amazon 弹性计较云(简称 EC2)新实例启动、Amazon 弹性块存储(简称 EBS)分卷(限于必要读取 S3 快照的数据)以及 AWS Lambda 均受到影响。

2017 年 3 月 22 日,微软云处事宕机。Outlook、 Hotmail、 OneDrive、 Skype 和 Xbox Live 都呈现了收集妨碍,环球用户都无法登录。英国海岸和美国海岸都市的 Outlook 邮箱体系的用户受到的影响出格严峻,同样凄凉的尚有欧美与美国海岸线的美国 OneDrive 用户,欧美和巴西的 Skype 用户,及 Xbox 的英国、美国、欧美用户。Azure 用户的一天也欠好过,一大批工程师无法登录体系。这不是微软最近第一次呈现这种题目,前次是 3 月 7 日。

2015 年 6 月 6 日,QingCloud 广东 1 区所有硬件装备因遭遇雷暴气候激发电力妨碍,造成 QingCloud 官网及节制台短时无法会见、陈设于 GD1 的用户营业暂且不行用。在营业规复后,青云方面披露了相助运营商针对事情的观测缘故起因:

1.直击雷导致电力体系呈现瞬时浪涌,UPS 启动自我掩护,从而开释电流导致瞬中断电;

2.固然机房配备了四级防雷,但首要是防备感到雷,对付此次直击雷,机房完全没有招架之力。

2014 年 11 月 2 日,腾讯云处事器呈现了六分钟的会见妨碍。腾讯云平台部方面暗示,此次会见妨碍首要是上海和广州机房的处事器呈现妨碍,机房收集出口发抖造成的,而收集发抖是源于运营商收集信道阻塞,导致用户毗连处事器呈现丢包等征象。“这是收集上游的题目,并非机房自己硬件妨碍,以是无法停止该环境的产生。”云平台部方面认真人如是说。

对付吃瓜群众们来说,看完热闹了,要看会什么门道呢?

纵观以上云厂商宕机案例,有的是天灾(机房被雷劈了),有的是人祸(误删除操纵),但可以必定的是:宕机这事儿,估量在很长的一段时刻里都无法停止。

以 AWS S3 妨碍为例。InfoQ 整合了三位技能专家陈皓、陈天、Nick Kephart 给出的思索清算如下:

1、要留意Error Handling

当题目呈现时,一个平凡的 S3 GET 返回什么:

085740772017

以是AWS 汇报你Internal Error 了。

从 error handling 的角度,陈天以为在写代码的时辰都应该捕获这个非常,然后做吻合的错误处理赏罚。很遗憾的是,S3 这样的处事是云云基本,就像互联网的水和电一样,各人默以为它永久不会堕落。因此,许多几何工程师爽性不做错误处理赏罚。

除了代码编写层面的处理赏罚,当云处事商的宕机产生时,只管节制它影响面。像 Trello连 landing page 都一并挂掉其实不行取,由于最少 S3 影响不到的页面,如 landing page、用户注册 / 登录页面应该还保持正常处事;而像 Quora的处事,着实是可以筹备一个静态化的镜像,一旦出题目,最少让读者可以无障碍地阅读。

2、尽也许地把动态内容缓存起来,乃至静态化

Redis cache、Nginx cache、HAProxy、CDN 都是把内容缓存乃至静态化的一些本领。陈天以为:尽量多级缓存维护起来是个贫困,但当底层处事呈现题目时,它们就是可贵的计谋缓冲区。cache 为你争取到的半个小时到几个小时险些是续命的灵芝,它能帮你撑过最艰巨的时候(这次 S3 宕机前后或许 4 小时,最严峻的时辰是 11点到1点),相对从容地探求办理方案,紧张宣布新的页面,可能迁徙处事,把丧失降到最低。

不然,只能像这次变乱中的诸多公司一样,听其自然,双手合十祷告 AWS 的工程师给力些办理题目。

3、云用户应检考焦点依靠相关,晋升要害性处事的冗余程度

S3是多种Amazon处事的焦点构成部门之一。无论是操作其举办简朴文件存储、工具存储抑或是用于存储网站可能应用措施中的内容,其间伟大的依靠性城市激发级联效应。S3能影响到的组件包罗用户会话打点、媒体存储、内容存储、用户数据、第三方工具和自动化机制等。

在Thousandeyes公司的Nick Kephart看来,云用户应检考焦点依靠相关,晋升要害性处事的冗余程度。AWS的体系在构建傍边具备冗余特征,可以或许实现跨数据中心自动复制存储工具与文件。而作为另一种冗余层,云用户必要操作特殊AWS处事区可能其余云处事供给商以彻底停止此类事情;不外这会增进大量打点伟大性与本钱支出,由于跨情形间的数据同步事变必要由云用户认真打理。大大都企业并没有选择上述选项,然则纯真的数据备份在数小时的短周期内并不能施展浸染。

固然面向云情形的迁徙确实可以或许在不变性与弹性方面为企业带来庞大辅佐,可是各类不易被发明的依靠性也因此增进,单一处事失败也许激发大局限处事瘫痪。Nick提议云用户的开拓与运营团队检察与云处事供给商间的焦点依靠相关,拟定计策以监控各项处事也许受到的影响,同时调解现有架构以晋升要害性用户的冗余程度。

4、妨碍练习很重要

对付这次变乱,陈皓在其博客中暗示美国东一区作为老牌的处事区拥有海量工具,能在数小时规复已属不易,而且荣幸的是没有丢失重要数据。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读