返回介绍

5.1 尽量不要用 PDF

发布于 2024-01-27 21:43:11 字数 504 浏览 0 评论 0 收藏 0

本章用到的数据与上一章相同,只不过是 PDF 格式的。一般来说,我们不会去寻找难以解析的数据格式,但我们在本书中之所以这么做,是因为你要处理的数据可能并不总是理想中的格式。你可以在本书的 GitHub 仓库(https://github.com/jackiekazil/data-wrangling)中找到本章所用的 PDF 文件。

在开始解析 PDF 数据之前,你需要考虑以下几件事情。

· 你是否尝试寻找其他格式的数据?如果在网上找不到,试试打电话(见 6.4.1 节)或发邮件求助。

· 你是否尝试过从文档中直接复制粘贴数据?有时你可以很方便地在 PDF 文件里选择并复制数据,然后粘贴到电子表格中。但这种做法不一定每次都能奏效,而且也无法规模化(如果有大量文件或页面,你就没法快速完成了)。

如果你不得不处理 PDF 文件的话,需要学习如何用 Python 解析其中的数据。我们来开始学习。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文