加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

+CarbonData,华为云智能数据湖让数据处理赏罚飞起来!

发布时间:2020-06-06 02:56:59 所属栏目:业界 来源:站长网
导读:跟着5G、AI、IoT等技能越来越遍及,企业数据量增大,新的数据营业层出不穷,企业对数据说明的机动性、机能、本钱要求越来越高,基于传统大数据Hadoop体系搭建的数据说明平台已无法满意企业多方面的要求。 连年来跟着云计较技能成长,越来越多企业选择了以

跟着5G、AI、IoT等技能越来越遍及,企业数据量增大,新的数据营业层出不穷,企业对数据说明的机动性、机能、本钱要求越来越高,基于传统大数据Hadoop体系搭建的数据说明平台已无法满意企业多方面的要求。

连年来跟着云计较技能成长,越来越多企业选择了以数据湖为中心构建大数据处理赏罚平台,数据湖最明明的特性就是存储和计较疏散,一方面可以使本钱降落;另一方面,可以得到更好的体系可扩展性。

回收数据湖架构,跟着企业营业增添,可以在一份数据上不绝增进新营业,而不是像传统数据平台那样,每拓展一个新营业就要做一次数据拷贝。

 每个硬币都有两面,数据湖方案除了低本钱、易扩展的利益外,同时也有一些弱点:

 1、无事宜手段,数据入库难!

传统数据湖依靠云存储,但云存储一样平常都没有ACID(Atomicity, Consistency, Isolation, Durability)事宜手段,导致在此之上构建的Hive表格、Spark表格等不支持基于事宜的数据入库,更不消说数据更新了。

这个破绽极大制约了数据湖的行使场景,企业无法将不绝变革的数据快速注入到数据湖内。经常必要在营业层做大量预处理赏罚后,才气进入数据湖做说明,处理赏罚时延每每在一天以上。

  2、说明机能依靠于暴力扫描,即费资源又太慢!

传统数据湖存储依靠云存储,极大低落本钱,但做数据说明时属于暴力扫描方法,完全依赖云存储自身的吞吐手段,这种方法只合用于ETL、批量计较等对时延不敏感的应用,无法支撑如秒级数据检索、时序数据说明等低时延说明场景。

 + CarbonData,让华为云智能数据湖真正成为企业数据架构的底座

为了办理这些题目,华为云基于云存储+CarbonData构建的新一代数据湖,实现了 “及时数据接入”、“DB数据同步”、“高机能查询和说明”等手段,弥补了业界手段空缺,使云化数据湖可以真正成为企业数据架构的底座。

+CarbonData,华为云智能数据湖让数据处理赏罚飞起来!

基于CarbonData的华为云数据湖方案如上图描写,Kafka完成数据网络,由Flink、Spark Streaming等流计较引擎完成数据洗濯、预处理赏罚等营业逻辑,将处理赏罚后的数据注入到CarbonData表格中;

继而,用户可行使Spark、Hive、Presto等大数据引擎对CarbonData表格举办交互说明、详单查询和ETL等营业;也可以行使TensorFlow、PyTorch等AI引擎举办AI模子实习、推理等。

下面进一步叙述,加持CarbonData后,华为云智能数据湖的三大特点:

1、及时数据入库

CarbonData增进了对 Flink 的支持,50行代码轻松实现对接 Flink 以CarbonData的名目实现及时数据入库。同时,CarbonData支持ACID事宜手段,确保入库操纵的原子性和同等性。这使得CarbonData成为独逐一款兼具速率、机动性和支持 ACID 事宜特征的全场景数据湖。

2、DB数据同步

CarbonData支持Delta增量同步,对比Hive行使的数据重写计策,数据同步机能晋升10倍。基于CarbonData的数据快速同步手段,企业可以轻松实现相关型数据库到数据湖的数据及时同步,收缩数据入湖可见周期,将数据可见时刻从T+1优化为T+0,消除数据入湖壁垒。

3、高机能查询和说明

CarbonData支持对云存储的数据构建索引和物化视图,实现10倍以上的查询机能晋升。按照营业需求,用户可选择多种索引和物化视图加快手段,包罗主索引、二级索引、时空索引、多值列索引、时刻序列Rollup、多表Join预聚合等。

CarbonData在构建这些索引的时辰,同样遵循ACID事宜性,确保索引构建进程中不会对营业查询造成影响。并可以操作云计较的按需扩展手段,加快索引和物化视图的构建机能。

基于CarbonData最新版本的异步索引构建手段,在数据入库及时性要求较高的营业场景,用户可通过“先入库再建索引”的方法,均衡数据入库耽误和查询机能。实现数据入库后即可被查询,并行使周期使命或比及营业闲时再对数据成立索引,大幅晋升查询机能。

 典范场景说明

某互联网行业用户行使CarbonData构建全场景数据湖,借助“DB数据同步”、“及时数据入库”和“高机能查询和说明”成果轻松构建PB级别、乃至EB级别大数据处理赏罚平台。

对付一个日活万万级此外APP应用来说,均匀天天约发生500亿条用户举动数据,一年的数据存储量约10PB。在行使CarbonData之前,该用户曾做过如下机能和整天职析:

1、传统Nosql数据库固然具有较好的数据索引机制,可是“太贵”:

由于要查询快,用户凡是会起首思量HBase, ElasticSearch等自带索引的NoSQL数据库。

以HBase为例,每PB存储的云硬盘本钱为70万/月;单台RegionServer可维护不高出10TB的数据, 每PB的数据存储需100台计较节点来陈设RegionServer,每台计较节点500元/月,陈设的硬件本钱为500*100=5万/月,每PB总本钱=75万/月。

 2、基于云存储+文件固然具有较好的本钱上风,可是“太慢”:

行使Parquet, ORC等列存,可以将数据存储在工具存储中,本钱大大低落,每PB存储的工具存储本钱约为8万/月;100台计较节点假设天天开机8小时,计较本钱5/3=1.67万/月,每PB总本钱约9.67万/月,本钱大幅降落。

可是因为无索引,只能通过暴力扫描的方法举办查询和计较,在暴力计较时体系每每受限于工具存储带宽,假设工具存储带宽为20GB/s,对10PB全量数据查询一次凡是必要4~5个小时(视营业查询前提而定)。

 3、云存储+CarbonData, 实现“又快又自制”的任性:

CarbonData兼具NoSQL的索引机能上风,和Parquet、ORC等文件存储的本钱上风,又快又自制:

1) 操作CarbonData的索引、物化视图、缓存等查询优化技能,查询时刻从4个小时降落到30秒内,查询机能晋升480倍;

2) 支持ACID事宜和DB数据同步手段,收缩数据入湖可见周期从T+1到T+0;

3) 基于存算疏散架构,行使云存储+100计较节点按需启停,每PB总本钱约9.67万/月,本钱低落近10倍。

  瞻望

Apache CarbonData是一个高机能EB级别原生Hadoop说明型数据客栈,提供面向工具存储上EB级数据的高机能明细查询手段、交互式查询手段,提供流数据接入、DB数据及时同步和更新手段,提供对首要ETL营业的支持和加快,以及呆板进修、深度进修等AI引擎的对接和优化,生态成长越来越完美。

+CarbonData,华为云智能数据湖让数据处理赏罚飞起来!

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读