“数据说明岗亭”雇用环境说明!| Execl版
副问题[/!--empirenews.page--]
为了操练Excel手艺,以及实践数据说明的流程。我用Web Scraper爬取了出息无忧4月16日世界宣布的约2500条数据说明的地位信息,对数据说明岗亭的雇用环境举办简朴的说明。整个进程分为五个步调:明晰目标,调查数据,洗濯数据,说明进程,得出结论。 Web Scraper的行使教程可拜见宝器之前写的一篇文章: 成都做头发的处所?| 都给我爬爬爬爬趴下来! 01 明晰目标 统统数据说明都是以营业为焦点目标。本次项目标目标是通过数据说明岗亭的雇用信息,包罗地域漫衍、薪资程度、地位要求等,相识最新数据说明岗亭的环境。 02 调查数据
起首看一下哪些字段数据可以去除。link为地位详情页链接,是爬取二级页面必要的;Releasedate是地位宣布时刻,都为4月16日,这两列可以删除。 JD:地位描写、address:公司地点、companyProfile:公司简介、keyword:地位要害字 固然JD中的地位描写比info中信息更精确,但此次低级说明差池文本举办发掘,以是先潜匿。只管不删除数据,而是潜匿,担保原始数据的完备性,往后也许会用到。 03 洗濯数据 搜查数据缺失:Excel中可以通过选取该列,在屏幕的右下角查察计数,以此鉴别有无缺失数据,缺失值很洪流平上影响说明功效。假如某一字段缺失数据较多(高出50%),说明进程中要思量是否删除该字段,由于缺失过多就没有营业意义了。 salary、companyType、Field、conmpanySize都存在一小部门的缺失,不影响现实说明。 搜查数据是否有脏数据:脏数据包罗乱码,错位,一再值,未匹配数据,加密数据等。能影响到说明的都算脏数据,没有同等化也可以算。 数据尺度布局:就是将非凡布局的数据举办转换和规整。 我们起首把 city、salary、info拆开。 先将salary拆成最高薪水和最低薪水。较量贫困的是薪水的暗示方法有“XX元/天”,“X-X万/年”,“X-X千/月”,“X-X万/月”,尚有空缺项。 以天结算的也许是兼职,数目很少直接删除。 空缺项是由于岗亭链接是公司主页,而不是出息无忧的地位详情页,以是没有爬取到。空缺项或许占总量的2%,缺失值可以以营业常识或履历展望添补、可以统一指标的计较功效(均值、中位数、众数等)添补、也可以用回归、贝叶斯情势化要领的基于推理的器材或决定树归纳确定。这里简朴回收均值添补。 此刻只剩“X-X万/年”,“X-X千/月”,“X-X万/月”三种范例,我规划同一以“X-X千/月”暗示。 先用筛选中的“文本筛选”选出全部以“万/年”暗示薪资的项 行使排列,以 ‘ - ’ 为脱离标记把salary分为两列,再对最高薪水列行使LEFT和FIND团结,截取单元前的数字 换算一下单元,取小数点后一位,“X-X万/年”就转变为“X-X千/月”了 然后筛选出“X-X万/月”的项,同样排列---> 截取最高薪数字--->换算单元 最后筛选出“X-X千/月”的项,排列---> 截取最高薪数字,但不消换算单元了。最后获得的bottom和top列是公式,用复制-->粘贴为“值”,将公式转化为数值 (编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |