用于格式化和数据清理的便捷 Python 库

发布于 2024-12-25 18:51:32 字数 5328 浏览 8 评论 0

真实世界是杂乱的,它的数据也是。那么凌乱, 最近的一项调查 显示,数据科学家花费 60%的时间在清理数据。不幸的是,他们中 57%还觉得这是他们工作中最不愉快的方面。

清理数据可能是耗时的,但是很多工具已经出现,让这个重要的任务惬意一点。Python 社区提供了众多库,用来让数据有序清晰,从具有风格的 DataFrame 到匿名数据集。

如果你发现什么有用的库,请告诉我们,我们一直在寻找更好的库,以添加到 Mode Python Notebooks 中。

太糟糕的清理对数据科学家而言就像对这个小男孩一样,并不好玩。

Dora

Dora 是为探索性分析而生的;具体来说,是为了自动化它最痛苦的那部分,如特征选择和提取,可视化,以及,是哒,你猜到了,就是数据清理。清理功能包括:

  • 读取缺失和比例值不佳的数据
  • 输入缺失值
  • 缩放输入变量的值

创建者: Nathan Epstein
何处了解更多: https://github.com/NathanEpstein/Dora

datacleaner

令人感到惊奇的 datacleaner 清理你的数据 —— 但只在它是以 pandas DataFrame 形式出现的时候。据创建者 Randy Olson 说:“datacleaner 并不是魔术,它不会读取文本的无组织块,然后自动的为你解析。”

但是,它会丢弃具有缺失值的行,在逐列基础上用模或者中位数来替换缺失值,并且用数值等效来编码非数值变量。这个库相当的新,但是由于在 Python 中,DataFrame 是分析的基础,因此值得一看。

创建者: Randy Olson
何处了解更多: https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 是强大的,但是它不会生成你想要展示给你老板看的那种表格。PrettyPandas 利用 pandas Style API 来转换 DataFrame 成值得展示的表单。创建摘要,添加样式,并格式化数字、列和行。额外的好处:健壮、易读的 文档

创建者: Henry Hammond
何处了解更多: https://github.com/HHammond/PrettyPandas

tabulate

tabulate 让你只用一次函数调用,就可以打印小而美的表格。它让列按照十进制、数字格式和表头等等进行排列,对于让表单更易读,它是非常方便的。

其中一个最酷的功能是,能够以多种格式,例如 HTML, PHP 或者 Markdown Extra,来输出数据,所以你可以继续在另一个工具或者语言中处理你的表单数据。

创建者: Sergey Astanin
何处了解更多: https://pypi.python.org/pypi/tabulate

scrubadub

在诸如医疗保健和金融的领域中,数据科学家经常需要匿名数据集。scrubadub 从免费文本中移除了 个人身份信息 (PII) ,如:

  • 姓名 (专有名词)
  • 电子邮件地址
  • 网址
  • 电话号码
  • 用户名/密码组合
  • Skype 用户名
  • 社保号

该文档在显示你可能想要自定义 scrubadub 行为的方面(例如定义新的 PII 类型,或者排除某些 PII 类型)表现良好。

创建者: Datascope Analytics
何处了解更多: http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

坦白说:在 Python 中处理日期和时间很痛苦。本地时区不能够被自动识别。要花几行令人不爽的代码来转换时区和时间戳。

Arrow 旨在修复这些问题和插件功能上的缺陷,来帮助你用更少的代码和更少的导入来处理时间和日期。不像 Python 的标准库,Arrow 默认意识到时区和 UTC。你可以用一行代码来转换时区或者解析字符串。

创建者: Chris Smith
何处了解更多: http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任务很简单:清理和美化 URL 和电子邮件地址。你可以通过域名和用户名来解析电子邮件;通过域名和参数(例如,UTM 或者令牌)来解析 URL。

创建者: Sachin Philip Mathew
何处了解更多: https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (为你修正文本) 接收糟糕的 Unicode,输出漂亮的 Unicode。基本上,它修复了所欲的垃圾字符。 “quotesâ€\x9d 变成 "quotes" ; ü 变成 ü ; &lt;3 变成 <3 。如果每天都在处理文本,那么这个库,正如一个用户所说,是“一个方便的法宝。”

创建者: Luminoso
何处了解更多: https://github.com/LuminosoInsight/python-ftfy

管理数据的更多资源

这里是几个我们最喜欢的关于改写/管理/清理数据的文章。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

关于作者

初熏

暂无简介

文章
评论
27 人气
更多

推荐作者

笑脸一如从前

文章 0 评论 0

mnbvcxz

文章 0 评论 0

真是无聊啊

文章 0 评论 0

旧城空念

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文