加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

奈何成为知乎大V?爬取张佳玮138w+存眷者:数据可视化

发布时间:2017-12-20 04:17:55 所属栏目:建站 来源:鸟哥笔记
导读:副问题#e# 一、媒介 作为简书上第一篇文章,先先容下小配景,即为什么爬知乎第一大V张令郎的138w+存眷者信息? 着实之前也写过不少小爬虫,凭证网上各类教程实例去练手,“不行停止”的爬过妹子图、爬过豆瓣Top250 影戏等等;也基于自身的设法,在浙大 120
副问题[/!--empirenews.page--]

QQ截图20171211100002.jpg

一、媒介

作为简书上第一篇文章,先先容下小配景,即为什么爬知乎第一大V张令郎的138w+存眷者信息?

着实之前也写过不少小爬虫,凭证网上各类教程实例去练手,“不行停止”的爬过妹子图、爬过豆瓣Top250 影戏等等;也基于自身的设法,在浙大 120 周年校庆前,听闻北美帝国大厦初次给大陆学校亮灯,于是爬取2016- 2017 年官网上逐日的亮灯图并用python的PIL库做了几个小logo,算是一名吃瓜群众自发的道贺举动。

若何成为知乎大V?爬取张佳玮138w+关注者:数据可视化

北美帝国大厦亮灯图:ZJU120

也由于喜好鲁迅的作品,爬过在线鲁迅全集的所有文章问题和链接;其它传闻太祖的某卷书是****,于是顺带也爬了遍毛选;还帮老同窗在某单据网站下线前爬了大部门机构、职员信息,说是蛮值钱,然而也还在留下落灰......

若何成为知乎大V?爬取张佳玮138w+关注者:数据可视化

微博签到数据点亮中国

再是知道百度Echarts开源的可视化网站内里的图很酷炫,好比使我沉迷的:微博签到数据点亮中国,http://echarts.baidu.com/demo.html#scatter-weibo 于是想着可以爬取微博大明星、小鲜肉的粉丝的栖身地,然后搞搞怎么画出世界以致环球漫衍环境。但发明几年前微博就限定只能查察 200 阁下粉丝数(详细忘了),蛮失望的,于是将眼光转向了知乎......

而既然要爬,那就爬存眷人数最多的张令郎吧,数据量也大,这方面是之前小项目所不及的,此前也看过不少爬知乎数据与说明的文章,因此也想练练手,看看大量会见与获取数据时会不会碰着什么封IP的反爬法子,以及数据可视化能搞成什么样。

不外此文在爬虫部门不做过多睁开,看环境后续再另写一文。

思绪如下:抓包获取张佳玮主页存眷者api,然后改变网址中offset参数为 20 的倍数,一向翻页直到获取138w+存眷者信息,个中返回的json数据首要有:存眷者的昵称、主页id(即url_token)、性别、署名、被存眷人数等,也就是说必要会见全部主页id,才气获取更多信息(小我私人主页api:以黄继新为例):栖身地、地址行业、职业经验、教诲经验、获赞数、感激数、保藏数等等。鉴于还不怎么会多历程爬取,假如把全部id再爬一遍会很是耗时刻,于是筛选被存眷数100+的id,发明只剩了4.1w+,之后较完备提取了这部门的信息,后续可视化也多基于此。

若何成为知乎大V?爬取张佳玮138w+关注者:数据可视化

爬守信息一览

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读