想从事数据行业?你必须掌握这个最核心的技能
副问题[/!--empirenews.page--]
原问题:想从事数据行业?你必需把握这个最焦点的手艺 编者按:数据是新的石油,不外要想开采石油必要有纯熟的工程师才行。数据科学家就是干这个的。可是要想成为一名数据科学家,你得把握特定手艺才行。哪些才是对数据科学家最急切的手艺呢?让Jeff Hale汇报我们谜底。最难能难堪的是,其对需求最急切手艺的研究说明也浮现出了一位数据科学家的素养。这个说明进程自己就很是的严谨,值得进修小心。 各人对数据科学家的预期是应该懂许多——呆板进修、计较机科学、统计、数学、数据可视化、雷同,以及深度进修。这些规模牵扯到许多的说话、框架以及技能的进修。数据科学家要想成为店主想要的那种人才的话,应该把进修的精神放在哪些处所呢? 我到求职网站去探求对数据科学家最急切的手艺需求是什么。我看了一样平常的数据科学手艺,也别离看了对说话和器材的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜刮了求职列表。下面这张图列出了每个网站对数据科学家的需求数目。 我看了许多求职列表和观测以找出最常见的手艺。像打点这类的术语就不举办较量了,由于可以用到的场所太多了。 全部的搜刮都是针对美国,行使了“data scientist(数据科学家)”、“[keyword]”作为搜刮要害字。回收准确匹配以镌汰搜刮功效数。然而,这个要领确保了功效对数据科学家地位是相干的,而且对全部搜刮术语都发生相同的浸染。 AngelList提供的是列出数据科学家岗亭的公司数而不是岗亭数。我把AngelList从全部说明内里解除去了,由于其搜刮算法好像凭证OR型的逻辑搜刮举办,没有步伐改成AND。假如你探求的是“数据科学家”“TensorFlow”的话,AngelList也没题目,由于这只能在数据科学家岗亭内里找到,但假如你的要害字是“数据科学家”“react.js”的话,它返回的功效就太多了,个中会包罗一大堆非数据科学家的岗亭列表。 Glassdoor也被解除在我的说明之外。该网站声称在美国有26263个“数据科学家”地位,可是表现出来的却不高出900个。另外,它上面的数据科学家岗亭数高出任何其他主流平台3倍以上好像极不行能。 LinkedIn上高出400个岗亭列表都提到的通用手艺以及高出200个岗亭列表都提到的出格技能被纳入到最终说明内里。虽然,,这两者之间会有一些交错。功效已经被记录进这张Google Sheet 内里。 我下载了.csv文件而且导入到JupyterLab。然后我计较了呈现比例并求出求职网站之间的均匀数。 我还将软件功效跟GlassDoor的一项研究(2017年上半年,针对数据科学家岗亭列表)举办了比拟。再团结KDNuggets行使环境观测的信息,好像一些手艺正在变得越来月重要,而其他一些的相干性则在降落。后头我们会细谈。 互动式图表可以到我的Kaggle Kernel上面去看,特殊说明可拜见此处。可视化我用的是Plotly。为了本文团结行使Plotly和JupyterLab可费了一点工夫——相干指令可到我的Kaggle Kernel找,其它这里也有Plotly的剧本。 通用手艺 下面这张图反应的是店主探求最频仍的数据科学家通用手艺。 功效表白,说明和呆板进修是数据科学家岗亭的焦点手艺。从数据中发明洞察是数据科学的首要职能。呆板进修则是要建设体系来猜测示意,这长短常亟需的手艺。 数据科学必要统计和计较机科学手艺——这一点并不出奇。统计说明、计较机科学以及数学也是大学的专业,这或许对其呈现频率有辅佐。 风趣的是雷同在快要一样平常的岗亭列表中被提到。数据科学家必要将洞察与事变与他人举办雷同。 AI和深度进修的呈现频率没有其他一些属于那么频仍。然而,它们都属于呆板进修的子集。呆板进修已往由其他算法执行的使命正在被越来越多的深度进修算法更换。例如说,大大都天然说话处理赏罚题目最好的呆板进修算法此刻都是深度进修算法。我估量深度进修手艺在将来的需求会越发急切,而呆板进修也将日益酿成深度进修的同义词。 另外,哪些数据科学家的软件器材是店主想要寻求的呢?下面我们就来看看这个题目的谜底。 技能手艺 以下是店主但愿数据科学家把握的排名靠前的20种说话、库以及技能器材。 我们或许看一下个中最常见的技能手艺。 Python Python是需求最兴隆的说话。这门开源说话的风行度已经被许多人留意到。它对初学者很友爱,有很多支持资源。绝大部门新的数据科学器材都兼容它。Python是数据科学家的首要说话。 R R说话并不比Python落伍几多。它一度是数据科学的首要说话。我反而对它的需求依然云云兴隆感想受惊。这门开源说话的根在统计,至今在统计学家哪里仍很是风行。 Python可能R险些是每一个数据科学家岗亭的必需。 SQL SQL的需求也很高。SQL即布局化查询说话(Structured Query Language),是与相关式数据库的首要交互方法。SQL偶然辰会被数据科学界忽视,但这是一门值得把握的手艺,假如你规划切入求职市场的话。 Hadoop、Spark 接下来是Hadoop和Spark,这两个都是出自Apache的大数据开源器材。
|