加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

数据科学中一些不常用但很有用的Python库

发布时间:2019-10-19 00:13:53 所属栏目:建站 来源:AI公园
导读:导读 提到数据科学的python包,各人想到的预计是numpy,pandas,scikit-learn之类的,这里给各人先容一些不常用,但长短常有效的python包,就像是痒痒挠,固然大部门时刻用不上,可是真要用起来,照旧挺爽的。 Python是个了不得的说话。究竟上,这是天下上
副问题[/!--empirenews.page--]

导读

提到数据科学的python包,各人想到的预计是numpy,pandas,scikit-learn之类的,这里给各人先容一些不常用,但长短常有效的python包,就像是痒痒挠,固然大部门时刻用不上,可是真要用起来,照旧挺爽的。

数据科学中一些不常用但很有效的Python库

Python是个了不得的说话。究竟上,这是天下上成长最快的说话之一(感受没有之一,就是最快的)。在数据科学规模和开拓规模,一次又一次的为我们提供便利。整个Python的生态和库使之成为全部用户都合用(初学者和高级用户)。Python之以是这么乐成,缘故起因之一就在于它的库,让Python变得机动快速。

这篇文章中,我们会看一些不太常用的数据科学的库,除了pandas,scikit-learn,matplotlib等。尽量说到数据科学,我们想到的就是pandas和scikit-learn,相识一下其他的python的库也没什么弊端。下面就是其它一些数据科学中也许会用到的Python库。

Wget

从收集获取数据是Python科学家很是重要的使命。Wget是一个免费的器材,可以从Web上非交互式的下载文件,支持HTTP, HTTPS, 和 FTP协议,同样支持HTTP署理。因为长短交互式的,以是可以靠山运行,用户没有登录也可以。以是下次你必要从网上下载图片的时辰,可以试试wget。

安装:

  1. $ pip install wget 

例子:

  1. import wget 
  2. url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' 
  3. filename = wget.download(url) 
  4. 100% [................................................] 3841532 / 3841532 
  5. filename 
  6. 'razorback.mp3' 

Pendulum

这个是干啥的呢,你在处理赏罚日期时刻的时辰搞得头大的时辰,Pendulum就很得当你,这包是用来简化日期时刻的操纵的,详细行使可以看 这里 。

安装:

  1. $ pip install pendulum 

例子:

  1. import pendulum 
  2. dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') 
  3. dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver') 
  4. print(dt_vancouver.diff(dt_toronto).in_hours()) 

imbalanced-learn

大大都的分类题目中,当全部的种别中的样本的数目大抵沟通时,结果是最好的,也就是样本平衡。可是在现实环境中,每每都长短平衡的数据,这每每会影响实习的进程以及后头的猜测。幸好,这个库可以帮我们办理这个题目。这个和scikit-learn兼容,是scikit-learn-contrib的一部门。下次可以试试。

安装:

  1. pip install -U imbalanced-learn 
  2. # or 
  3. conda install -c conda-forge imbalanced-learn 

例子:

请参考文档。

FlashText

在洗濯NLP相干的数据的时辰,每每必要替代一些要害词可能提取一些要害词。凡是,可以用正则表达式来干这个活,不外正则前提的数目上千的时辰,就会很头大。FlashText是基于FlashText算法的一个模块,提供了这种环境下的一个更换器材,FlashText最好的处地址于运行时刻是和搜刮的前提的数目不相干的。更多的信息可以看这里。

安装:

  1. $ pip install flashtext 

例子:

提取要害词

  1. from flashtext import KeywordProcessor 
  2. keyword_processor = KeywordProcessor() 
  3. # keyword_processor.add_keyword(<unclean name>, <standardised name>) 
  4. keyword_processor.add_keyword('Big Apple', 'New York') 
  5. keyword_processor.add_keyword('Bay Area') 
  6. keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') 
  7. keywords_found 
  8. ['New York', 'Bay Area'] 

替代要害词

  1. keyword_processor.add_keyword('New Delhi', 'NCR region') 
  2. new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.') 
  3. new_sentence 
  4. 'I love New York and NCR region.' 

Fuzzywuzzy

名字听起来怪怪的,不外在字符匹配的时辰,用起来照旧爽爽的。可以轻松的实现字符比例,token比例等。还可以在差异的数据齐集举办匹配。

安装:

  1. $ pip install fuzzywuzzy 

例子:

  1. from fuzzywuzzy import fuzz 
  2. from fuzzywuzzy import process 
  3. # Simple Ratio 
  4. fuzz.ratio("this is a test", "this is a test!") 
  5. 97 
  6. # Partial Ratio 
  7. fuzz.partial_ratio("this is a test", "this is a test!") 
  8.  100 

PyFlux

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读