加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

想从事数据行业?你必须掌握这个最核心的技能

发布时间:2018-11-18 11:51:56 所属栏目:编程 来源:36氪
导读:原问题:想从事数据行业?你必需把握这个最焦点的手艺 编者按:数据是新的石油,不外要想开采石油必要有纯熟的工程师才行。数据科学家就是干这个的。可是要想成为一名数据科学家,你得把握特定手艺才行。哪些才是对数据科学家最急切的手艺呢?让Jeff Hale
副问题[/!--empirenews.page--]

原问题:想从事数据行业?你必需把握这个最焦点的手艺

编者按:数据是新的石油,不外要想开采石油必要有纯熟的工程师才行。数据科学家就是干这个的。可是要想成为一名数据科学家,你得把握特定手艺才行。哪些才是对数据科学家最急切的手艺呢?让Jeff Hale汇报我们谜底。最难能难堪的是,其对需求最急切手艺的研究说明也浮现出了一位数据科学家的素养。这个说明进程自己就很是的严谨,值得进修小心。

想从事数据行业?你必需把握这个最焦点的手艺

各人对数据科学家的预期是应该懂许多——呆板进修、计较机科学、统计、数学、数据可视化、雷同,以及深度进修。这些规模牵扯到许多的说话、框架以及技能的进修。数据科学家要想成为店主想要的那种人才的话,应该把进修的精神放在哪些处所呢?

我到求职网站去探求对数据科学家最急切的手艺需求是什么。我看了一样平常的数据科学手艺,也别离看了对说话和器材的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜刮了求职列表。下面这张图列出了每个网站对数据科学家的需求数目。

想从事数据行业?你必需把握这个最焦点的手艺

我看了许多求职列表和观测以找出最常见的手艺。像打点这类的术语就不举办较量了,由于可以用到的场所太多了。

全部的搜刮都是针对美国,行使了“data scientist(数据科学家)”、“[keyword]”作为搜刮要害字。回收准确匹配以镌汰搜刮功效数。然而,这个要领确保了功效对数据科学家地位是相干的,而且对全部搜刮术语都发生相同的浸染。

AngelList提供的是列出数据科学家岗亭的公司数而不是岗亭数。我把AngelList从全部说明内里解除去了,由于其搜刮算法好像凭证OR型的逻辑搜刮举办,没有步伐改成AND。假如你探求的是“数据科学家”“TensorFlow”的话,AngelList也没题目,由于这只能在数据科学家岗亭内里找到,但假如你的要害字是“数据科学家”“react.js”的话,它返回的功效就太多了,个中会包罗一大堆非数据科学家的岗亭列表。

Glassdoor也被解除在我的说明之外。该网站声称在美国有26263个“数据科学家”地位,可是表现出来的却不高出900个。另外,它上面的数据科学家岗亭数高出任何其他主流平台3倍以上好像极不行能。

LinkedIn上高出400个岗亭列表都提到的通用手艺以及高出200个岗亭列表都提到的出格技能被纳入到最终说明内里。虽然,,这两者之间会有一些交错。功效已经被记录进这张Google Sheet 内里。

我下载了.csv文件而且导入到JupyterLab。然后我计较了呈现比例并求出求职网站之间的均匀数。

我还将软件功效跟GlassDoor的一项研究(2017年上半年,针对数据科学家岗亭列表)举办了比拟。再团结KDNuggets行使环境观测的信息,好像一些手艺正在变得越来月重要,而其他一些的相干性则在降落。后头我们会细谈。

互动式图表可以到我的Kaggle Kernel上面去看,特殊说明可拜见此处。可视化我用的是Plotly。为了本文团结行使Plotly和JupyterLab可费了一点工夫——相干指令可到我的Kaggle Kernel找,其它这里也有Plotly的剧本。

通用手艺

下面这张图反应的是店主探求最频仍的数据科学家通用手艺。

想从事数据行业?你必需把握这个最焦点的手艺

功效表白,说明和呆板进修是数据科学家岗亭的焦点手艺。从数据中发明洞察是数据科学的首要职能。呆板进修则是要建设体系来猜测示意,这长短常亟需的手艺。

数据科学必要统计和计较机科学手艺——这一点并不出奇。统计说明、计较机科学以及数学也是大学的专业,这或许对其呈现频率有辅佐。

风趣的是雷同在快要一样平常的岗亭列表中被提到。数据科学家必要将洞察与事变与他人举办雷同。

AI和深度进修的呈现频率没有其他一些属于那么频仍。然而,它们都属于呆板进修的子集。呆板进修已往由其他算法执行的使命正在被越来越多的深度进修算法更换。例如说,大大都天然说话处理赏罚题目最好的呆板进修算法此刻都是深度进修算法。我估量深度进修手艺在将来的需求会越发急切,而呆板进修也将日益酿成深度进修的同义词。

另外,哪些数据科学家的软件器材是店主想要寻求的呢?下面我们就来看看这个题目的谜底。

技能手艺

以下是店主但愿数据科学家把握的排名靠前的20种说话、库以及技能器材。

想从事数据行业?你必需把握这个最焦点的手艺

我们或许看一下个中最常见的技能手艺。

Python

Python是需求最兴隆的说话。这门开源说话的风行度已经被许多人留意到。它对初学者很友爱,有很多支持资源。绝大部门新的数据科学器材都兼容它。Python是数据科学家的首要说话。

R

R说话并不比Python落伍几多。它一度是数据科学的首要说话。我反而对它的需求依然云云兴隆感想受惊。这门开源说话的根在统计,至今在统计学家哪里仍很是风行。

Python可能R险些是每一个数据科学家岗亭的必需。

SQL

SQL的需求也很高。SQL即布局化查询说话(Structured Query Language),是与相关式数据库的首要交互方法。SQL偶然辰会被数据科学界忽视,但这是一门值得把握的手艺,假如你规划切入求职市场的话。

Hadoop、Spark

接下来是Hadoop和Spark,这两个都是出自Apache的大数据开源器材。

Apache Hadoop是一个操作商品化硬件搭建的计较机集群对超大局限数据集举办漫衍式存储和漫衍式处理赏罚的开源软件平台。

Apache Spark是一个有着优雅的、富有示意力的API,可让数据事变者高效执行必要对数据集举办快速迭代存取的流处理赏罚、呆板进修可能SQL负载的快速内存数据处理赏罚引擎。

相对付其他,这些器材在Medium和教程中被说起的次数少了点。我猜具备这些手艺的求职者要比具备Python、R和SQL手艺的求职者少得多。假如你把握了必然Hadoop和Spark履历的话,应该可以在竞争中得到上风。
Java、SAS

然后是Java和SAS。这两门说话职位这么高倒是出乎我的料想。其背后都有大公司的支持,支持至少都提供了一些免费的产物。不外Java和SAS在数据科学社区受到的存眷都很少。

Tableau

对Tableau的需求次之。这个说明平台和可视化器材很是强盛,易用,并且越来越风行。它有一个免费的民众版本,可是假如你想数据保持私有的话得费钱。

假如你对Tableau不认识的话,到Udemy上一门Tableau 10 A-Z快速相识一下绝对是值得的。声明一下啊,我这么提议可不是拿了佣金的——那是由于我上过这门课之后发明它简直有效。

下面这张表反应的是更大范畴内的说话、框架等数据科学软件器材的需求环境。

想从事数据行业?你必需把握这个最焦点的手艺

汗青比拟

GlassDoor对2017年1月到7月间数据科学家10大最常见的软件手艺举办了说明。以下是那些术语呈现的频度相对2018年10月在LinkedIn、Indeed、SimplyHired及Monster上呈现频度均匀数的比拟。

想从事数据行业?你必需把握这个最焦点的手艺

功效相等相同。我的说明和GlassDoor的说明都发明Python、R及SQL都是需求最兴隆的手艺。两份说明发明的需求前9大技能手艺都是一样的,尽量次序方面略有差异。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读