加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

Netflix 开源实时监控平台 Mantis:故障平均检测时间缩减到秒级

发布时间:2019-11-19 03:45:52 所属栏目:移动互联 来源:核子可乐编译
导读:【线上直播】11月21日晚8点贝壳技能总监侯圣文《数据安详之数据库安详黄金法例》 Netflix 开源了本身开拓的 Mantis 平台,该平台能闪开拓者在最小化调查和操纵体系的本钱的环境下,及时地监控并说明运维变乱,并将妨碍均匀检测时刻从几异常钟镌汰到了几秒钟
副问题[/!--empirenews.page--] 【线上直播】11月21日晚8点贝壳技能总监侯圣文《数据安详之数据库安详黄金法例》

  Netflix 开源及时监控平台 Mantis:妨碍均匀检测时刻缩减到秒级

Netflix 开源了本身开拓的 Mantis 平台,该平台能闪开拓者在最小化调查和操纵体系的本钱的环境下,及时地监控并说明运维变乱,并将妨碍均匀检测时刻从几异常钟镌汰到了几秒钟。

2019 年 10 月 21 日,我们很兴奋地公布,Netflix 将 Mantis(螳螂)开源了,这个平台可以或许辅佐 Netflix 的工程师们更好地领略他们所开拓的应用措施的各类举动,以确保为 Netflix 的会员提供最高质量的体验。并且我们信托,我们在 Netflix 所碰着的各种挑衅并不必然是 Netflix 所独占的,这就是为什么我们要在更普及的开拓社区来分享这个平台。

作为一个流媒体微处事生态体系,在不影响运维判定力的环境下,Mantis 平台为开拓工程师提供了让调查和操纵伟大漫衍式体系的本钱降至最低的手段。开拓工程师们已经基于 Mantis 平台构建了性价比颇高的应用措施,以实现快速辨认题目、触发警报、以及实验调停法子,从而最洪流平地低落 Netflix 处事的宕机时刻,乃至完全停止产生宕机事情。而碰着相同的指标妨碍,其他体系也许必要花上十多分钟才气完成准确处理赏罚,而 Mantis 将这一进程从几异常钟镌汰到了几秒钟,卓然有用地镌汰了我们的妨碍均匀检测时刻。这点是至关重要的,由于任何宕机时刻对付 Netflix 都是致命的,而且会对我们的订阅用户发生很是大的负面影响,因此,宕机进程中每流逝的一秒对我们来说都很重要。

跟着 Netlix 在环球日益增添的会员基数,以及跟着这些会员越来越多地行使 Netflix 提供的处事,我们对 Netflix 的体系运营康健状况怎样举办经济合用、便捷快速且准确无误的监控说明就变得越来越重要。譬喻,间隔我们颁发上一篇 关于 Mantis 博客文章(2016 年 3 月)已经有两年半的时刻,今天 Netflix 五分钟的宕机的影响体量已经相等于当时辰两小时的宕机。

Matins 让答复未知题目变得轻易  

对付局限庞大又日益增添的体系而言,只行使指标怀抱和日记说明的传统要领已不能满意当前的体系需求。指标权衡和日记说明要领的条件是,在事情产生之前你预先就知道必要答复什么样的题目。而另一方面,Mantis 让我们完全避开这个弱点,这个平台让我们可以或许答复事先并未预推测的新题目,且不必要添加任何新的器材或设置。Mantis 并没有行使日记或怀抱指标,而是支持将变乱广泛化,开拓职员可以按照必要从任何能网络数据的应用措施对变乱流实现会见。通过这种“按需斲丧”的模式,你就可以自由地将全部数据宣布给 Mantis。

Matins 以经济合算的方法答复题目  

假如为了可以或许在将来答复新的题目就宣布 100% 的运维数据,这么做在传统意义上本钱会长短常昂贵的。而 Mantis 行使了一种随需应变的、相应式的模子,在这些变乱被订阅成为变乱流之前,你并不必要为这些变乱支付任何本钱。而为了进一步低落本钱,Mantis 会为等效的订阅者从头宣布沟通的数据。通过这种方法,Mantis 与其他体系的明显差异之处在于,Mantis 应承我们对变乱实现基于流的可调查性,同时应承开拓工程师行使器材来低落本钱,不然过高的本钱将有害于营业。

从一开始构建 Mantis,我们就把这个指导原则精确无误地铭刻于心:让我们确保最小化调查和操纵体系的本钱,同时也担保了不会捐躯那些须要的和机会性的监控要点。

构建 Mantis 的指导原则  

以下是构建 Mantis 平台背后的指导原则。

1. 我们应该担保可以或许对原始变乱举办会见。 将变乱宣布到 Mantis 中的应用措施应该可以自由地宣布每个变乱。假如我们在这个阶段过早地把原始变乱转换为其他情势,那么在洞察变乱缘故起因方面也许就已经处于劣势了,由于这样一来已经丢失了原始情势的数据。

2. 我们应该可以或许做到及时会见这些变乱。 许多运维性用例在本质上是时刻敏感的。而传统的要领回收宣布、存储、然后批量聚合变乱等步调,这样处理赏罚起来太慢了。与之相反的是,我们应该在变乱达到时逐个地对它们举办处理赏罚和处事。跟着体系局限的扩张,更短的时刻内变乱的影响会变得更明显,及时处理赏罚这一点会变得越来越重要。

3. 我们应该在不必要向应用措施添加新的器材和设置的环境下,基于这些网络的数据答复那些未知的新题目。 无论怎么为体系打造足够的弹性,我们都不行能做到事先悉知体系也许会碰着的每一种也许的妨碍模式。以是,当这些未知妨碍不行停止地产生时,最重要的是我们可以从这些网络的数据中获取针对未知题目的新看法。因此,你应该做到可以或许宣布具有恣意上下文、恣意巨细的变乱。这样,当你将来某次想起要向体系扣问一个未知的新题目时,可以运用这些数据来答复这些新题目。

4. 我们应该可以或许以一种经济合用的方法来实现上述全部这些需求。 跟着 Netflix 这个营业要害体系局限不绝扩大,我们必要确保为该营业要害体系所打造的支撑性体系,其最终的本钱不会高出营业要害体系自己。

请记着这些指导原则,接下来让我们来看看 Mantis 是如作甚 Netflix 带来更多代价的。

Mantis 如作甚 Netflix 带来更多代价  

Mantis 投入出产的现实应用已经高出四年了。在此时代,在 Mantis 平台上已经构建了几个要害的运维洞察性应用措施。

在这些洞察性应用措施中,一些值得留意的例子包罗:

  • 及时监控 Netflix 流媒体康健状况,该应用措施及时地搜查 Netflix 的全部流媒体视频流量,并以风雅粒度精确地辨认那些对寓目体验的负面影响。该体系为 Netflix 处事整体康健状况包袱了预警指示的浸染,并将在几秒钟内触发告诫并关照相干团队。
  • 上下文警报,这个应用措施会及时地说明数十种 Netflix 微处事之间数以百万计的互动,从而辨认出非常,并为运营商提供与该非常所相干的富厚的上下文信息。这些由 Mantis 在背后支持的聚合具有自然的及时特征,从而使得非常的均匀检测时刻从几异常钟镌汰到几秒钟。思量到 Netflix 云云庞大的局限,这带来的影响确实异常深远。
  • Raven 应承用户行使我们的 Mantis 查询说话(MQL)对来自数百个流媒体源的及时数据举办各类情势的探测。
  • Cassandra 康健搜查则提供了对富厚的运维变乱的及时说明,并为 Netflix 里每个 Cassandra 集群天生整体性的康健状况陈诉。
  • 日记警报,通过及时处理赏罚来自数千个 Netflix 处事器的日记数据,来检测应用措施错误。
  • 混沌尝试监控,及时地跟踪混沌尝试中的用户体验变革,并在碰着负面影响时触发间断混沌尝试。
  • 及时小我私人身份信息(PII)数据,超过全部流媒体源及时地检测小我私人身份信息数据样本,以快速辨认敏感数据的传输。
接待实行开源的 Mantis  

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读