数据科学家易犯的十大编码错误,你中招了吗?
办理方案:用 assert 语句搜查数据质量。Pandas 也有沟通的测试,d6tstack 可以搜查数据的获取,d6tjoin 可以搜查数据的毗连。搜查数据的示例代码如下:
8. 没有注释代码 我大白你急着做说明。于是你把代码拼集起来获得功效,把功效交给你的客户可能老板。一周之后他们找到你,问你「你能改掉 xyz 吗?」或「你能更新一下功效吗?」。然后你和本身的代码大眼瞪小眼,既不记得你为什么要这么做,也不记得你做过什么。此刻想象一下其他人运行这段代码时的神色。
办理方案:即便你已经完成了说明,也要花时刻注释一下你做过什么。你会感激本身的,虽然其他人会越发感激你!这样你看起来会更专业! 9. 把数据存成 csv 或 pickle 说回数据,事实我们接头的是数据科学。就像函数和 for 轮回一样,CSV 和 pickle 文件也很常用,但它们着实并没有那么好。CSV 不包括模式(schema),以是每小我私人都必需从头理会数字和日期。Pickle 可以办理这一点,但只能用在 Python 中,并且不能压缩。这两种名目都不得当存储大型数据集。
办理方案:用 parquet 可能其他带稀有据模式的二进制数据名目,最好还能压缩数据。d6tflow 可以自动将数据输出存储为 parquet,这样你就不消办理这个题目了。 parquet:https://github.com/dask/fastparquet 10. 行使 Jupyter notebook 这个结论尚有一些争议——Jupyter notebook 就像 CSV 一样常用。许多人城市用到它们。但这并不能让它们变得更好。Jupyter notebook 助长了上面提到的很多欠好的软件工程风俗,出格是:
Jupyter notebook 很轻易上手,但局限太小。 办理方案:用 pycharm 和/或 spyder。 原文链接: https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Ftop-10-coding-mistakes-made-by-data-scientists-bb5bc82faaee 【本文是51CTO专栏机构“呆板之心”的原创译文,微信公家号“呆板之心( id: almosthuman2014)”】 戳这里,看该作者更多好文 【编辑保举】
点赞 0 (编辑:河北网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |