加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

“数据说明岗亭”雇用环境说明!| Execl版

发布时间:2019-04-27 17:17:21 所属栏目:教程 来源:佚名
导读:为了操练Excel手艺,以及实践数据说明的流程。我用Web Scraper爬取了出息无忧4月16日世界宣布的约2500条数据说明的地位信息,对数据说明岗亭的雇用环境举办简朴的说明。整个进程分为五个步调:明晰目标,调查数据,洗濯数据,说明进程,得出结论。 Web Scr
副问题[/!--empirenews.page--]

为了操练Excel手艺,以及实践数据说明的流程。我用Web Scraper爬取了出息无忧4月16日世界宣布的约2500条数据说明的地位信息,对数据说明岗亭的雇用环境举办简朴的说明。整个进程分为五个步调:明晰目标,调查数据,洗濯数据,说明进程,得出结论。

Web Scraper的行使教程可拜见宝器之前写的一篇文章:

成都做头发的处所?| 都给我爬爬爬爬趴下来!

01 明晰目标

统统数据说明都是以营业为焦点目标。本次项目标目标是通过数据说明岗亭的雇用信息,包罗地域漫衍、薪资程度、地位要求等,相识最新数据说明岗亭的环境。

02 调查数据

“数据说明岗亭”雇用环境说明!| Execl版

  • positionName:地位名称
  • link:地位详情页链接
  • companyName:公司名称
  • city:事变都市
  • salary:薪资
  • Releasedate:宣布日期
  • companyType:公司范例
  • Field:公司规模
  • conmpanySize:公司局限
  • JD:地位描写
  • address:公司地点
  • companyProfile:公司简介
  • info:雇用信息 (源于爬取的缘故起因包括了公司所在、事变履历、教诲要求、雇用人数、宣布时刻,以|脱离)
  • positionLables:职能种别
  • keyword:地位要害字
  • positionAdvantage:福利

起首看一下哪些字段数据可以去除。link为地位详情页链接,是爬取二级页面必要的;Releasedate是地位宣布时刻,都为4月16日,这两列可以删除。

JD:地位描写、address:公司地点、companyProfile:公司简介、keyword:地位要害字

固然JD中的地位描写比info中信息更精确,但此次低级说明差池文本举办发掘,以是先潜匿。只管不删除数据,而是潜匿,担保原始数据的完备性,往后也许会用到。

03 洗濯数据

搜查数据缺失:Excel中可以通过选取该列,在屏幕的右下角查察计数,以此鉴别有无缺失数据,缺失值很洪流平上影响说明功效。假如某一字段缺失数据较多(高出50%),说明进程中要思量是否删除该字段,由于缺失过多就没有营业意义了。

salary、companyType、Field、conmpanySize都存在一小部门的缺失,不影响现实说明。

搜查数据是否有脏数据:脏数据包罗乱码,错位,一再值,未匹配数据,加密数据等。能影响到说明的都算脏数据,没有同等化也可以算。

数据尺度布局:就是将非凡布局的数据举办转换和规整。

我们起首把 city、salary、info拆开。

“数据说明岗亭”雇用环境说明!| Execl版

先将salary拆成最高薪水和最低薪水。较量贫困的是薪水的暗示方法有“XX元/天”,“X-X万/年”,“X-X千/月”,“X-X万/月”,尚有空缺项。

以天结算的也许是兼职,数目很少直接删除。

空缺项是由于岗亭链接是公司主页,而不是出息无忧的地位详情页,以是没有爬取到。空缺项或许占总量的2%,缺失值可以以营业常识或履历展望添补、可以统一指标的计较功效(均值、中位数、众数等)添补、也可以用回归、贝叶斯情势化要领的基于推理的器材或决定树归纳确定。这里简朴回收均值添补。

此刻只剩“X-X万/年”,“X-X千/月”,“X-X万/月”三种范例,我规划同一以“X-X千/月”暗示。

先用筛选中的“文本筛选”选出全部以“万/年”暗示薪资的项

行使排列,以 ‘ - ’ 为脱离标记把salary分为两列,再对最高薪水列行使LEFT和FIND团结,截取单元前的数字

换算一下单元,取小数点后一位,“X-X万/年”就转变为“X-X千/月”了

然后筛选出“X-X万/月”的项,同样排列---> 截取最高薪数字--->换算单元

最后筛选出“X-X千/月”的项,排列---> 截取最高薪数字,但不消换算单元了。最后获得的bottom和top列是公式,用复制-->粘贴为“值”,将公式转化为数值

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读