数据科学中一些不常用但很有用的Python库
副问题[/!--empirenews.page--]
导读提到数据科学的python包,各人想到的预计是numpy,pandas,scikit-learn之类的,这里给各人先容一些不常用,但长短常有效的python包,就像是痒痒挠,固然大部门时刻用不上,可是真要用起来,照旧挺爽的。 Python是个了不得的说话。究竟上,这是天下上成长最快的说话之一(感受没有之一,就是最快的)。在数据科学规模和开拓规模,一次又一次的为我们提供便利。整个Python的生态和库使之成为全部用户都合用(初学者和高级用户)。Python之以是这么乐成,缘故起因之一就在于它的库,让Python变得机动快速。 这篇文章中,我们会看一些不太常用的数据科学的库,除了pandas,scikit-learn,matplotlib等。尽量说到数据科学,我们想到的就是pandas和scikit-learn,相识一下其他的python的库也没什么弊端。下面就是其它一些数据科学中也许会用到的Python库。 Wget从收集获取数据是Python科学家很是重要的使命。Wget是一个免费的器材,可以从Web上非交互式的下载文件,支持HTTP, HTTPS, 和 FTP协议,同样支持HTTP署理。因为长短交互式的,以是可以靠山运行,用户没有登录也可以。以是下次你必要从网上下载图片的时辰,可以试试wget。 安装:
例子:
Pendulum这个是干啥的呢,你在处理赏罚日期时刻的时辰搞得头大的时辰,Pendulum就很得当你,这包是用来简化日期时刻的操纵的,详细行使可以看 这里 。 安装:
例子:
imbalanced-learn大大都的分类题目中,当全部的种别中的样本的数目大抵沟通时,结果是最好的,也就是样本平衡。可是在现实环境中,每每都长短平衡的数据,这每每会影响实习的进程以及后头的猜测。幸好,这个库可以帮我们办理这个题目。这个和scikit-learn兼容,是scikit-learn-contrib的一部门。下次可以试试。 安装:
例子: 请参考文档。 FlashText在洗濯NLP相干的数据的时辰,每每必要替代一些要害词可能提取一些要害词。凡是,可以用正则表达式来干这个活,不外正则前提的数目上千的时辰,就会很头大。FlashText是基于FlashText算法的一个模块,提供了这种环境下的一个更换器材,FlashText最好的处地址于运行时刻是和搜刮的前提的数目不相干的。更多的信息可以看这里。 安装:
例子: 提取要害词
替代要害词
Fuzzywuzzy名字听起来怪怪的,不外在字符匹配的时辰,用起来照旧爽爽的。可以轻松的实现字符比例,token比例等。还可以在差异的数据齐集举办匹配。 安装:
例子:
PyFlux(编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |