加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

从一个浪潮案例看海量数据的分级保护应用

发布时间:2019-09-25 07:11:56 所属栏目:创业 来源:站长网
导读:副问题#e# 导读 : 移动互联期间 , 企业都面对着海量数据带来的挑衅 , 有一些企业顺从了海量数据 ,实现了 存的下、算的出,但纵然云云,这些企业很少跨过数据掩护的门槛,由于传统数据掩护技能在面临PB级别数据量时,都或多或少的呈现了题目,海潮工程师
副问题[/!--empirenews.page--]

导读移动互联期间企业都面对着海量数据带来的挑衅有一些企业顺从了海量数据,实现了“存的下、算的出”,但纵然云云,这些企业很少跨过数据掩护的门槛,由于传统数据掩护技能在面临PB级别数据量时,都或多或少的呈现了题目,海潮工程师开拓了分级掩护方案,很好的满意了100PB级此外数据掩护需求。

PB数据量挑衅传统数据掩护技能

提到数据掩护和容灾,许多人城市想到备份技能、存储复制技能、数据卷复制技能、数据库日记传输等,可是这些传统技能没法顺应海量数据情形。数PB以致数十PB局限的数据,是传统数据掩护技能和容灾技能在计划和形成之初,所不能想象的。这些技能合用于百TB以下数据局限,大大都不能做到及时掩护,容灾数据一般处于离线或不行会见状态,难以满意大数据的应用需求。

始末陈设这些技能在海量数据情形下,劫难规复、可用性、不变性等技能示意也会大打折扣。拿传统备份技能来说,一般演练/验证,数据必要从头加载,PB级数据情形下,加载时刻每每是数天、乃至数周,若容灾数据不能举办有用的一般验证,整个容灾架构的靠得住性和适用性会急剧降落,以是在许多场景中,传统方案仅限于方案,不能现实陈设。

数据分级办理大数据容灾题目

OpenStack、Hadoop、Spark等今朝主流的云和大数据平台,数据靠得住性首要通过存储子体系的副本和纠删码等技能来担保,这些技能只能担保当地数据安详靠得住,没法应对工钱粉碎、物理/逻辑妨碍、站点妨碍等环境,必要增进汗青数据掩护和远间隔容灾掩护。

大数据平台80%阁下都是原始数据,这些数据颠末数据洗濯、管理形成平台的尺度资源库数据,这个环节是一个海量数据布局化的进程,随后,按照上层营业应用需求,由尺度资源库快速派生出多个主题库、专题库等,这些数据库就直接对接上层应用了。

海量数据掩护必要在深入相识营业模子和数据属性的技能上,对这些数据举办分级掩护,按照重要水划一技能指标,执行差异的掩护计策,停止了本钱高、技能难落地等现实题目。

1

数据分级掩护

一个案例——50PB数据的掩护

分级仅是海量数据掩护的方案框架,详细方案必要针对客户的详细应用场景举办计划,以是我们以方才乐成上线的一个案例来具体睁开。

该用户的数据量属于超大局限级别,在全省有11个大数据分中心,1个大数据总中心,各此中心收罗本身地区的原始数据,天生当地的尺度资源库,然后按照各自需求天生当地的主题库、专题库等,承接当地上层的应用;同时,各分中心传输当地的尺度资源库至总中心,汇聚为全省的尺度资源库,天生相干主题库、专题库,具备承接全省范畴内营业需求的手段,12此中心数据总量靠近50PB。

数据说明——50PB数据掩护1PB即可

用户但愿成立有用的容灾机制,防御物理、逻辑、站点等妨碍。按照上文所述的原则,必要先对客户的数据举办分类,按照差异的重要水平采纳差异的数据掩护技能。

起首是原始数据,这些数据可再生,并且据颠末热度会见期后,便成为冷数据,代价低,局限大,不必回收特另外掩护技能;其次是,尺度资源库数据,这些库数据是大数据平台的首次功效数据,含金量很高,是用户大数据情形的焦点数据,不易重建,有很强的数据掩护和容灾需求,然后是种种主题库、专题库等数据,这些库数据由尺度资源库数据颠末二次加工派生出而出,并支持快速重建,产生题目可以在用户要求的RTO(复兴时刻方针)内完成重建,因而这类数据也不必要特殊容灾掩护最后则是各中心间冗余数据,显然这些数据不必要容灾掩护

综上,本项目仅必要为总中心的全量尺度资源库数据举办容灾掩护,数据量约1PB。

应用方案——3条传输通路冗余、计较存储疏散

海潮为用户计划了异地容灾方案,将方案凭证客户要求陈设在分数据中心10中。总中心的全量尺度资源库有1PB布局化数据,逐日数据变革量为30TB~50TB,以是,异地容灾架构中数据传输技能要支持高频率周期性传输和及时传输模式,将增量数据复制过来,按照出产情形的压力变革两种传输技能可以机动组合,担保异地容灾大数据平台为在线状态,一般可以及时查询数据、验证数据。以是,容灾数据传输回收ETL定制化器材,这种数据传输技能与大数据平台有着自然的亲和性,高速不变、成熟靠得住,今朝,容灾方案可以担保RPO≤1小时,RTO≤2小时。

最后,容灾中心大数据平台,回收计较和存储疏散的陈设模式,容灾存储回收企业级漫衍式存储,并和上层大数据平台对接,使方案具备很强的数据湖特征:容灾数据可以机动的分派给非大数据平台情形,支持容灾数据在差异范例的营业体系间共享,停止数据再次复制进程,最大化数据代价。

以下为容灾方案技能架构图:

2

容灾方案技能架构图

本项目在总中心陈设3台ETL处事器(后续打算在容灾中心也陈设3台,实现ETL处事器的站点互备架构),形成三条逻辑冗余的数据传输通道,从总中心大数据平台抽取尺度资源库全量数据至容灾中心,之后举办差量数据复制,容灾中心数据和出产中心数据保持必然的时刻差别,可以晋升防御逻辑数据妨碍的手段。

容灾中心,一般首要事变为吸取总中心尺度资源库数据,并提供数据查询、验证处事、低频运行姑且分派的功课使命,按照建树方针,此平台设置和出产中心尺度资源库同量存储资源,但不需设置平等的计较资源,以是,本方案回收30台处事器(约为总中心大数据平台计较力的10%)、40台高密存储节点(设置海量数据存储池,提供4PB可用容量,实现将来三年的容量预留)搭建大数据容灾平台。30台处事器包罗1台打点节点、2台主处事节点以及27台数据节点,平台处事组件回收高靠得住主备模式,防备单节点妨碍题目。海量存储池回收纠删数据冗余机制,担保靠得住性和空间操作率,海量存储池,被上层大数据平台打点,跟着容灾数据的快速增添,可以实此刻不扩容平台计较资源的前提下,在线扩展其容量至数百PB,满意用户后期数据的快速增添需求。

3

Hadoop容灾平台

结语,海量数据将是企业新常态

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读