返回介绍

6.1 并非所有数据生而平等

发布于 2024-01-27 21:43:11 字数 772 浏览 0 评论 0 收藏 0

对于遇到的每一个数据集,尽管我们愿意相信其真实性和数据质量,但并非所有数据都能符合我们的预期。即使是你目前使用的数据集,在深入研究之后也可能是无用且无效的数据源。对于你面临的数据处理问题,在寻求自动化解决方案时,你会发现 Python 工具可以帮你分辨好数据和坏数据,还可以帮你评价数据的可用性。第 7 章和第 8 章会讲到用 Python 做数据清洗和数据探索,第 14 章会讲到自动化,在这些章节里我们都会介绍关于这些工具的更多内容。

刚刚得到新数据时,我们建议做一个数据气味测试,测试该数据是否是可靠的信息源,并决定是否信任该数据。你可以问问自己以下几个问题。

· 如果我有问题或疑虑的话,能够联系上作者本人吗?

· 数据是否定期检查错误并更新?

· 数据里是否包含数据获取方法的信息,是否包含数据获取过程中使用的样本类型?

· 有没有其他数据源可以验证这个数据集?

· 根据我对这个话题了解的所有知识,数据看起来是否可信?

如果你对至少三个问题的回答都是“是”,这说明你走对路了!如果至少对两个问题的回答是“否”,你可能需要花更多时间寻找可靠的数据。

 你可能需要联系最初采集数据并发布的作者或机构,以寻求更多信息。通常情况下,给合适的人打电话或发电子邮件,可以帮你回答上面至少一个问题,并验证数据源的可靠性。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文