数据科学家易犯的十大编码错误，你中招了吗？

发布时间：2019-05-06 00:40:59 所属栏目：建站来源：机器之心编译

导读：数据科学家比软件工程师善于统计，又比统计学家善于软件工程。听起来牛逼轰轰，究竟却是，许大都据科学家有统计学配景，却没有什么软件工程方面的履历，因此在编码时轻易犯一些简朴的错误。作为一名高级数据科学家，本文作者总结了他在事变中常见数据科学

办理方案：用 assert 语句搜查数据质量。Pandas 也有沟通的测试，d6tstack 可以搜查数据的获取，d6tjoin 可以搜查数据的毗连。搜查数据的示例代码如下：

d6tstack：https://github.com/d6t/d6tstack
d6tjoin：https://github.com/d6t/d6tjoin/blob/master/examples-prejoin.ipynb

assert df['id'].unique().shape[0] == len(ids) # have data for all ids? 
assert df.isna().sum()<0.9 # catch missing values 
assert df.groupby(['g','date']).size().max() ==1 # no duplicate values/date? 
assert d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched() # all ids matched?

8. 没有注释代码

我大白你急着做说明。于是你把代码拼集起来获得功效，把功效交给你的客户可能老板。一周之后他们找到你，问你「你能改掉 xyz 吗?」或「你能更新一下功效吗?」。然后你和本身的代码大眼瞪小眼，既不记得你为什么要这么做，也不记得你做过什么。此刻想象一下其他人运行这段代码时的神色。

def some_complicated_function(data): 
    datadata = data[data['column']!='wrong'] 
    datadata = data.groupby('date').apply(lambda x: complicated_stuff(x)) 
    datadata = data[data['value']<0.9] 
    return data

办理方案：即便你已经完成了说明，也要花时刻注释一下你做过什么。你会感激本身的，虽然其他人会越发感激你!这样你看起来会更专业!

9. 把数据存成 csv 或 pickle

说回数据，事实我们接头的是数据科学。就像函数和 for 轮回一样，CSV 和 pickle 文件也很常用，但它们着实并没有那么好。CSV 不包括模式(schema)，以是每小我私人都必需从头理会数字和日期。Pickle 可以办理这一点，但只能用在 Python 中，并且不能压缩。这两种名目都不得当存储大型数据集。

def process_data(data, parameter): 
    data = do_stuff(data) 
    data.to_pickle('data.pkl') 
data = pd.read_csv('data.csv') 
process_data(data) 
df_train = pd.read_pickle(df_train)

办理方案：用 parquet 可能其他带稀有据模式的二进制数据名目，最好还能压缩数据。d6tflow 可以自动将数据输出存储为 parquet，这样你就不消办理这个题目了。

parquet：https://github.com/dask/fastparquet

10. 行使 Jupyter notebook

这个结论尚有一些争议——Jupyter notebook 就像 CSV 一样常用。许多人城市用到它们。但这并不能让它们变得更好。Jupyter notebook 助长了上面提到的很多欠好的软件工程风俗，出格是：

你会把全部文件存在一个目次中;
你写的代码是自上而下运行的，而不是 DAG;
你不会模块化你的代码;
代码难以调试;
代码和输出会殽杂在一个文件中;
不能很好地举办版本节制。

Jupyter notebook 很轻易上手，但局限太小。

办理方案：用 pycharm 和/或 spyder。

原文链接：

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Ftop-10-coding-mistakes-made-by-data-scientists-bb5bc82faaee

【本文是51CTO专栏机构“呆板之心”的原创译文，微信公家号“呆板之心( id: almosthuman2014)”】

戳这里，看该作者更多好文

【编辑保举】

“老司机”划重点！搞定这120个真实口试题目，杀进数据科学圈
数据科学难在实践，有哪些弯路可以不走？
数据科学的下一个「超手段」：模子可表明性
除Kaggle外，尚有哪些顶级数据科学比赛平台
14个Q&A，报告python与数据科学的“暧昧情事”

【责任编辑：赵宁宁 TEL：（010）68476606】
点赞 0

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录