加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

加快数据说明,这10个小能力好用到哭

发布时间:2019-08-24 00:57:16 所属栏目:移动互联 来源:读芯术
导读:划重点!!!本文罗列了一些行使Python和Jupyter Notebook的能力,接头了怎样轻松说明数据以及怎样举办名目化编码、输出和调试等操纵。 在编程规模,偶然一个小能力就能节减大量时刻,乃至能起到救命的结果。这些必杀技每每能在将来的数据说明中施展重大浸染
副问题[/!--empirenews.page--]

划重点!!!本文罗列了一些行使Python和Jupyter Notebook的能力,接头了怎样轻松说明数据以及怎样举办名目化编码、输出和调试等操纵。

加快数据说明,这10个小能力好用到哭

在编程规模,偶然一个小能力就能节减大量时刻,乃至能起到救命的结果。这些“必杀技”每每能在将来的数据说明中施展重大浸染。

1. 说明Pandas数据框架

Profiling(说明)是一个辅佐领略数据的进程,Pandas Profiling(数据预览说明)作为一个python器材包,就是用来辅佐领略数据的。该器材可以或许简朴快速地对熊猫数据框架举办试探性数据说明。pandas df.describe()和df.info()functions凡是是EDA进程的第一步。然而,这个步调只提供一个根基的数据预览,对大型数据集辅佐不大。其它,Pandas Profiling成果行使df.profile_report()扩展了熊猫数据框架,可以快速举办数据说明。该成果仅用一行代码就可以表现许多信息,这也可以应用在交互式的HTML陈诉中。

对付给定命据集,数据预览说明包会处理赏罚以下数据:

加快数据说明,这10个小能力好用到哭

Pandas Profiling器材包计较的统计数据

安装

  1. pip install pandas-profiling 
  2. or 
  3. conda install -c anaconda pandas-profiling 

行使

用迂腐的大数据集来演示python profiler的成果。

  1. #importing the necessary packages 
  2. import pandas as pd 
  3. import pandas_profiling 
  4. # Depreciated: pre 2.0.0 version 
  5. df = pd.read_csv('titanic/train.csv') 
  6. pandas_profiling.ProfileReport(df) 

最近,Pandas-Profiling宣布了一个重要的2.0.0进级版本。究竟上,该版本对语法作了一点改变,这个成果也已经包括在熊猫数据框架中了,陈诉也变得越发全面。以下是最新的语法用法:

行使

要在Jupyter条记本中表现陈诉,并运行:

  1. #Pandas-Profiling 2.0.0 
  2. df.profile_report() 

这一行代码就是用户在Jupyter条记本中表现数据说明陈诉所需的所有内容。表现的陈诉很是具体,须要时还包罗图表。

加快数据说明,这10个小能力好用到哭

通过下列代码用户还可以将该陈诉导出到交互式HTML文件中:

  1. profile = df.profile_report(title='Pandas Profiling Report') 
  2. profile.to_file(outputfile="Titanic data profiling.html") 
加快数据说明,这10个小能力好用到哭

更多具体信息和示例:https://pandas-profiling.github.io/pandas-profiling/docs/

2. 加强Pandas plots的互动性

Pandas有一个内置的 .plot() 成果,是数据框架类的一部门。然而,该成果不尽人意的处地址于泛起的可视化不是交互式的。相反,用pandas.DataFrame.plot()成果绘制图表就很轻易。假如差池代码做重大修改,可以绘制出像熊猫图表一样的交互式图表吗?谜底是可以的,Cufflinks库可以或许辅佐做到这一点。

Cufflinks库将plotly的成果与Pandas的机动性团结起来,使画图简朴化。此刻就来看看怎样安装这个库,并让它在pandas上运行。

安装

  1. pip install plotly # Plotly is a pre-requisite before installing cufflinks 
  2. pip install cufflinks 

行使

  1. #importing Pandas  
  2. import pandas as pd 
  3. #importing plotly and cufflinks in offline mode 
  4. import cufflinks as cf 
  5. import plotly.offline 
  6. cf.go_offline() 
  7. cf.set_config_file(offline=False, world_readable=True) 

此刻来看看大数据集的魔力

  1. df.iplot() 
加快数据说明,这10个小能力好用到哭
加快数据说明,这10个小能力好用到哭
  1. df.iplot() 与 df.plot() 

右边的可视化表现的是静态图表,而左边则是交互式图表,更为具体。这些图表在语法上都没有作出重大改变。

更多示例:https://github.com/santosjorge/cufflinks/blob/master/Cufflinks%20Tutorial%20-%20Pandas%20Like.ipynb

3. 少许邪术

邪术呼吁(Magic commands)是Jupyter条记本中的一组便捷成果,旨在办理尺度数据说明中的一些常见题目。在 %lsmagic的辅佐下,用户可以看到全部可用的邪术成果。

加快数据说明,这10个小能力好用到哭

全部可用邪术成果的清单

邪术呼吁有两种:行邪术,即以单个%字符为前缀,在单行输入上操纵;单位格邪术,即以%%为前缀,在多行输入上操纵。假如配置为1,则无需键入初始%即可挪用把戏成果。

一路来看看两种邪术呼吁在常见数据说明使命中的应用:

  • % pastebin

%pastebin将代码上传到Pastebin并返回url地点。Pastebin属于在线内容托管处事,在这里,用户可以存储如源代码片断等纯文本,然后与他人共享网址。究竟上,Github的要点也相同于pastebin,尽量存在版权限定。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读