一文看懂大数据规模的六年巨变
本年,规划将说明 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其小我私人项目,来析已往 6 年中的大数据的趋势和变革。 为此,作者抓取并整理了 290 多期内容(行使了 Python 爬虫),保存了与技能、消息和宣布通告相干的文章片断。接下来,他对文章片断举办了一些根基的天然说话处理赏罚并应用了一些根基的过滤,最后天生要害字和下下列表。 已往六年的首要趋势 作者绘制了特定要害词被说起次数的月转动均匀值,,并将它们绘制在统一个图表上。下面的图表声名白这些技能约莫在什么时刻点变得越来越风行。 Hadoop 与 Spark 从 2013 年 Spark 开始经受 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。 Hadoop 与 Kafka Kafka 成为全部大数据技能栈的首要构建块。 Hadoop 与 Kubernetes Kubernestes 的崛起,尽量 Data Eng Weekly 并不异常存眷 DevOps,但却也见证了从 2017 年开始环绕 Kubernetes 在各个规模的全面炒作。 年度热点要害词 我只是简朴地画出在给定年份中被说起次数最多的 10 个要害词。 2013 年:Hadoop 的黄金时期! 全部原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流刊行版 CDH 和 HDP,除此之外别无其他! 2014 年:Spark 的崛起! Hadoop 总体上连续了它的统治职位,但 Spark 在这一年推出的第一个版本成为 2014 年最热点的话题! 2015 年:Kafka 来了! Spark 代替 Hadoop 的一名位的置,Kafka 进入前三。大大都旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。 2016 年:流式处理赏罚火热! 2016 年是流式处理赏罚年,Kafka 代替了 Hadoop 第二名的位置,Spark(流式处理赏罚)继承占有主导职位。 2017:统统向流式处理赏罚看齐! 与 2016 年的声势沟通,只是插手了 Flink。 2018 年:回到基本! Kubernetes 初次表态,我们回到了基本,试图找出怎样打点(K8S)、调治(airflow)和运行(Spark、Kafka、存储……)我们的流。 2019 年:...... 此刻对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流! 【编辑保举】
点赞 0 (编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |