“数据说明岗亭”雇用环境说明！| Execl版

发布时间：2019-04-27 17:17:21 所属栏目：教程来源：佚名

导读：为了操练Excel手艺，以及实践数据说明的流程。我用Web Scraper爬取了出息无忧4月16日世界宣布的约2500条数据说明的地位信息，对数据说明岗亭的雇用环境举办简朴的说明。整个进程分为五个步调：明晰目标，调查数据，洗濯数据，说明进程，得出结论。 Web Scr

副问题[/!--empirenews.page--]

为了操练Excel手艺，以及实践数据说明的流程。我用Web Scraper爬取了出息无忧4月16日世界宣布的约2500条数据说明的地位信息，对数据说明岗亭的雇用环境举办简朴的说明。整个进程分为五个步调：明晰目标，调查数据，洗濯数据，说明进程，得出结论。

Web Scraper的行使教程可拜见宝器之前写的一篇文章：

成都做头发的处所?| 都给我爬爬爬爬趴下来!

01 明晰目标

统统数据说明都是以营业为焦点目标。本次项目标目标是通过数据说明岗亭的雇用信息，包罗地域漫衍、薪资程度、地位要求等，相识最新数据说明岗亭的环境。

02 调查数据

“数据说明岗亭”雇用环境说明！| Execl版

起首看一下哪些字段数据可以去除。link为地位详情页链接，是爬取二级页面必要的;Releasedate是地位宣布时刻，都为4月16日，这两列可以删除。

JD：地位描写、address：公司地点、companyProfile：公司简介、keyword：地位要害字

固然JD中的地位描写比info中信息更精确，但此次低级说明差池文本举办发掘，以是先潜匿。只管不删除数据，而是潜匿，担保原始数据的完备性，往后也许会用到。

03 洗濯数据

搜查数据缺失：Excel中可以通过选取该列，在屏幕的右下角查察计数，以此鉴别有无缺失数据，缺失值很洪流平上影响说明功效。假如某一字段缺失数据较多(高出50%)，说明进程中要思量是否删除该字段，由于缺失过多就没有营业意义了。

salary、companyType、Field、conmpanySize都存在一小部门的缺失，不影响现实说明。

搜查数据是否有脏数据：脏数据包罗乱码，错位，一再值，未匹配数据，加密数据等。能影响到说明的都算脏数据，没有同等化也可以算。

数据尺度布局：就是将非凡布局的数据举办转换和规整。

我们起首把 city、salary、info拆开。

“数据说明岗亭”雇用环境说明！| Execl版

先将salary拆成最高薪水和最低薪水。较量贫困的是薪水的暗示方法有“XX元/天”，“X-X万/年”，“X-X千/月”，“X-X万/月”，尚有空缺项。

以天结算的也许是兼职，数目很少直接删除。

空缺项是由于岗亭链接是公司主页，而不是出息无忧的地位详情页，以是没有爬取到。空缺项或许占总量的2%，缺失值可以以营业常识或履历展望添补、可以统一指标的计较功效(均值、中位数、众数等)添补、也可以用回归、贝叶斯情势化要领的基于推理的器材或决定树归纳确定。这里简朴回收均值添补。

此刻只剩“X-X万/年”，“X-X千/月”，“X-X万/月”三种范例，我规划同一以“X-X千/月”暗示。

先用筛选中的“文本筛选”选出全部以“万/年”暗示薪资的项

行使排列，以 ‘ - ’ 为脱离标记把salary分为两列，再对最高薪水列行使LEFT和FIND团结，截取单元前的数字

换算一下单元，取小数点后一位，“X-X万/年”就转变为“X-X千/月”了

然后筛选出“X-X万/月”的项，同样排列---> 截取最高薪数字--->换算单元

最后筛选出“X-X千/月”的项，排列---> 截取最高薪数字，但不消换算单元了。最后获得的bottom和top列是公式，用复制-->粘贴为“值”，将公式转化为数值

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

教你怎样消除windowxp	雨林木风xp系统gho安装
高手告诉你xp怎么看64	原版xp镜像iso系统旗舰