数据科学中一些不常用但很有用的Python库

发布时间：2019-10-19 00:13:53 所属栏目：建站来源：AI公园

导读：导读提到数据科学的python包，各人想到的预计是numpy，pandas，scikit-learn之类的，这里给各人先容一些不常用，但长短常有效的python包，就像是痒痒挠，固然大部门时刻用不上，可是真要用起来，照旧挺爽的。 Python是个了不得的说话。究竟上，这是天下上

副问题[/!--empirenews.page--]

导读

提到数据科学的python包，各人想到的预计是numpy，pandas，scikit-learn之类的，这里给各人先容一些不常用，但长短常有效的python包，就像是痒痒挠，固然大部门时刻用不上，可是真要用起来，照旧挺爽的。

数据科学中一些不常用但很有效的Python库

Python是个了不得的说话。究竟上，这是天下上成长最快的说话之一(感受没有之一，就是最快的)。在数据科学规模和开拓规模，一次又一次的为我们提供便利。整个Python的生态和库使之成为全部用户都合用(初学者和高级用户)。Python之以是这么乐成，缘故起因之一就在于它的库，让Python变得机动快速。

这篇文章中，我们会看一些不太常用的数据科学的库，除了pandas，scikit-learn，matplotlib等。尽量说到数据科学，我们想到的就是pandas和scikit-learn，相识一下其他的python的库也没什么弊端。下面就是其它一些数据科学中也许会用到的Python库。

Wget

从收集获取数据是Python科学家很是重要的使命。Wget是一个免费的器材，可以从Web上非交互式的下载文件，支持HTTP, HTTPS, 和 FTP协议，同样支持HTTP署理。因为长短交互式的，以是可以靠山运行，用户没有登录也可以。以是下次你必要从网上下载图片的时辰，可以试试wget。

安装:

$ pip install wget

例子:

import wget 
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' 
filename = wget.download(url) 
100% [................................................] 3841532 / 3841532 
filename 
'razorback.mp3'

Pendulum

这个是干啥的呢，你在处理赏罚日期时刻的时辰搞得头大的时辰，Pendulum就很得当你，这包是用来简化日期时刻的操纵的，详细行使可以看这里。

安装:

$ pip install pendulum

例子:

import pendulum 
dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') 
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver') 
print(dt_vancouver.diff(dt_toronto).in_hours()) 
3

imbalanced-learn

大大都的分类题目中，当全部的种别中的样本的数目大抵沟通时，结果是最好的，也就是样本平衡。可是在现实环境中，每每都长短平衡的数据，这每每会影响实习的进程以及后头的猜测。幸好，这个库可以帮我们办理这个题目。这个和scikit-learn兼容，是scikit-learn-contrib的一部门。下次可以试试。

安装:

pip install -U imbalanced-learn 
# or 
conda install -c conda-forge imbalanced-learn

例子:

请参考文档。

FlashText

在洗濯NLP相干的数据的时辰，每每必要替代一些要害词可能提取一些要害词。凡是，可以用正则表达式来干这个活，不外正则前提的数目上千的时辰，就会很头大。FlashText是基于FlashText算法的一个模块，提供了这种环境下的一个更换器材，FlashText最好的处地址于运行时刻是和搜刮的前提的数目不相干的。更多的信息可以看这里。

安装:

$ pip install flashtext

例子:

提取要害词

from flashtext import KeywordProcessor 
keyword_processor = KeywordProcessor() 
# keyword_processor.add_keyword(<unclean name>, <standardised name>) 
keyword_processor.add_keyword('Big Apple', 'New York') 
keyword_processor.add_keyword('Bay Area') 
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') 
keywords_found 
['New York', 'Bay Area']

替代要害词

keyword_processor.add_keyword('New Delhi', 'NCR region') 
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.') 
new_sentence 
'I love New York and NCR region.'

Fuzzywuzzy

名字听起来怪怪的，不外在字符匹配的时辰，用起来照旧爽爽的。可以轻松的实现字符比例，token比例等。还可以在差异的数据齐集举办匹配。

安装:

$ pip install fuzzywuzzy

例子:

from fuzzywuzzy import fuzz 
from fuzzywuzzy import process 
# Simple Ratio 
fuzz.ratio("this is a test", "this is a test!") 
97 
# Partial Ratio 
fuzz.partial_ratio("this is a test", "this is a test!") 
 100

PyFlux

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录