返回介绍

6.6 数据存储

发布于 2024-01-27 21:43:11 字数 985 浏览 0 评论 0 收藏 0

找到数据之后,你需要把数据保存下来!有些时候,你得到的数据是干净的、易于访问的、机器可读的格式。其他时候,你可能想用另一种方法来保存数据。当你第一次从 CSV 或 PDF 中提取数据的时候,我们会讲到几种数据存储工具,或者,你可以等数据完全处理并清洗完成后再进行存储(我们会在第 7 章讲到数据清洗的内容)。

我应该把数据保存在哪里?

最开始的问题是,要将数据保存到其他地方,还是留在最开始提取的文件中。这有一系列问题可以帮你回答这个问题。

· 你能否用简单的文档阅读器(例如 Microsoft Word)打开数据集,同时不会造成计算机死机?

· 数据看起来是否具有良好的标签和结构,让你可以方便提取出每一段信息?

· 如果需要不止一台电脑来处理数据的话,数据的保存和移动是否方便?

· 能否利用 API 实时访问数据,这样你就能在线获取需要的数据?

如果所有问题的回答都是“是”,你可能不必担心保存数据的问题。如果你的回答有“是”有“否”的话,可能需要将数据保存在数据库或平面文件(flat file)中。如果所有问题的回答都是“否”,继续读下去,我的朋友,我们为你提供了解决方法!

假设你的数据集各不相同——这里的一个文件,那里的一份报告。其中一些很容易下载和访问,但其他的你可能需要从网络上复制或抓取。第 7 章和第 9 章中会讲到如何清洗与合并数据集,但现在我们来谈一谈如何将数据保存在共享位置。

 如果你要用的数据集来自多台电脑,建议你把它们都保存在网络或互联网中(你好,云计算!),或者保存在移动硬盘或 U 盘中。当你和团队合作时,团队成员可能会从不同地点或不同电脑访问数据,一定要记住这一点。如果你在一台计算机上工作,一定要有数据备份策略。电脑丢失最糟糕的一点就是,你花几个月时间获取并清洗的数据也丢失了。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文