加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

大数据成长的8个要点

发布时间:2019-10-09 02:34:00 所属栏目:移动互联 来源:佚名
导读:起首让我们来聊聊什么是大数据。大数据这个观念已经出来许多年了(高出 10 年),但一向没有一个精确的界说(大概也并不必要)。数据工程师(DataEngineer)对大数据的领略会更多从技能和体系的角度去领略,而数据说明职员(Data Analyst)对大数据领略会从产物的
副问题[/!--empirenews.page--]

起首让我们来聊聊什么是大数据。大数据这个观念已经出来许多年了(高出 10 年),但一向没有一个精确的界说(大概也并不必要)。数据工程师(DataEngineer)对大数据的领略会更多从技能和体系的角度去领略,而数据说明职员(Data Analyst)对大数据领略会从产物的角度去领略,以是数据工程师(Data Engineer) 和数据说明职员(Data Analyst)所领略的大数据必定是有差此外。我所领略的大数据是这样的,大数据不是单一的一种技能可能产物,它是全部与数据相干的综合学科。看大数据我会从 2 个维度来看,一个是数据流的维度(下图的程度轴),其它一个是技能栈的维度(下图的纵轴)。

大数据成长的 8 个要点

着实我一向不太喜好张口缄口讲“大数据”,我更喜好说“数据”。由于大数据的本质在于“数据”,而不是“大”。因为媒体一向重点鼓吹大数据的“大”,以是偶然辰我们每每会突然大数据的本质在“数据”,而不是“大”,“大”只是你看到的表相,本质照旧数据自身。

在我们讲清晰大数据的寄义之后,我们来聊聊大数据今朝到底处在一个什么样的位置。从汗青成长的角度来看,每一项新技能城市经验下面这样一个技能成熟度曲线。

大数据成长的 8 个要点

当一项新技能刚出来的时辰人们会很是乐观,经常觉得这项技能会给人类带来庞大的厘革,对此持有过高的祈望,以是这项技能一开始会以很是快的速率受到各人追捧,然后达到一个巅峰,之后人们开始熟悉到这项新技能并没有当初预想的那么具有革命性,然后会过于气馁,之后就会经验泡沫阶段。等悄然必然阶段之后,人们开始回归理性,正视这项技能的代价,然后开始正确的应用这项技能,以后这项技能开始走向稳步向前成长的阶梯。(题外话,笔者在看这幅图的时辰也遐想到了一个汉子对婚姻观点的曲线图,各人本身脑补)。

从大数据的汗青来看,大数据已经经验了 2 个重要阶段

两个重要阶段是指过高祈望的峰值和泡沫化的底谷期 。此刻正处于稳步向前成长的阶段。我们可以从 googletrend 上 big data 的曲线就能印证。大数据约莫从 2009 年开始走向人们的视野,在 2015 年阁下走向了巅峰,然后逐步走向降落通道(虽然这张曲线并不会和上面这张技能成熟度曲线完全拟合,好比技能曲线处在降落通道有也许会使接头这项技能的搜刮量增进)。

大数据成长的 8 个要点

数据局限会继承扩大,大数据将继承发扬光大

前面已经提到过,大数据已经渡过了过高祈望的峰值和泡沫化的底谷期,此刻正在稳步向前成长。做这样判定首要有以下 2 个缘故起因:

上游数据局限会继承增添,出格是因为 IOT 技能的成长和成熟,以及将来 5G 技能的放开。在可猜测的将来,数据局限仍将继承快速增添,这是可以或许发动大数据一连不变向前成长的根基动力。

下流数据财富尚有许多成长的空间,尚有很大都据的代价我们没有发掘出来。

固然此刻人工智能,区块链抢去了大数据的风口位置,大概大数据成不了将来的主角,但大数据也绝对不是跑龙套的,大数据仍将饰演一个重要而基本的脚色。可以这么说,只要稀有据在,大数据就永久不会过期。我想在大部门人的有生之年,我们城市见证大数据的一连向上成长。

数据的及时性需求将越发突出

之前大数据碰着的最大挑衅在于数据局限大(以是各人会称之为“大数据”),颠末家产界多年的全力和实践,局限大这个题目根基已包办理了。接下来几年,更大的挑衅在于速率,也就是及时性。而大数据的及时性并不是指简朴的传输数据可能处理赏罚数据的及时性,而是从端到端的及时,任何一个步调速率慢了,就影响整个大数据体系的及时性。以是大数据的及时性,包罗以下几个方面:

  • 快速获取和传输数据
  • 快速计较处理赏罚数据
  • 及时可视化数据
  • 在线呆板进修,及时更新呆板进修模子

今朝以 Kafka,Flink 为代表的流处理赏罚计较引擎已经为及时计较提供了坚硬的底层技能支持,信托将来在及时可视化数据以及在线呆板进修方面会有更多优越的产物涌现出来。当大数据的及时性加强之后,在数据斲丧端会发生更多有代价的数据,从而形成一个更高效的数据闭环,促进整个数据流的良性成长。

大数据基本办法往云上迁徙势不行挡

今朝 IT 基本办法往云上迁徙不再是一个各人还必要争论的题目,这是局面所趋。虽然我这边说的云并不光单指公有云,也包罗私有云,殽杂云。由于因为每个企业的营业属性差异,对数据安详性的要求差异,不行能把全部的大数据办法都陈设在公有云上,但向云上迁徙这是一个将来注定的选择。今朝各大云厂商都提供了各类百般的大数据产物以满意各类用户需求,包罗平台型(PAAS) 的 EMR ,处事型 (SAAS) 的数据可视化产物等等。

大数据基本办法的云化对大数据技能和产物发生也有响应的影响。大数据规模的框架和产物将越发 Cloud Native 。

  • 计较和存储的疏散。我们知道每个公有云都有本身对应的漫衍式存储,好比 AWS 的 S3 。 S3 在一些场所可以替代我们所熟知的 HDFS ,并且本钱更低。而 S3 的物理存储并不是在 EC2 上面,对 EC2 来说, S3 是 remote storage 。以是假如你要是 AWS 上面做大数据开拓和应用,并且你的数据是在 S3 上,那么你就天然而然用到了计较和存储的疏散。
  • 拥抱容器,与 Kubernate 的整合局面所趋,我们知道在云情形中 Kuberneate 根基上已经是容器资源调治的尺度。
  • 更具有弹性(Elastic)。
  • 与云上其他产物和处事整合越发细密。

大数据产物全链路化

全链路化是指提供端到端的全链路办理方案,而不是简朴的会萃一些大数据产物组件。以 Hadoop 为代表的大数据产物一向被人诟病的首要题目就是用户行使门槛过高,二次开拓本钱太高。全链路化就是为了办理这一题目,用户必要的并不是 Hadoop,Spark,Flink 等这些技能,而是要以这些技能为基本的能办理营业题目的产物。 Cloudera 的从 Edge 到 AI 是我较量认同的方案。大数据的代价并不是数据自己,而是数据背后所潜匿的对营业有影响的信息和常识。下面是一张摘自 wikipedia 的经典数据金字塔的图。

大数据成长的 8 个要点

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读