返回介绍

5.5 不常见的文件类型

发布于 2024-01-27 21:43:11 字数 953 浏览 0 评论 0 收藏 0

目前为止,本书已经讲过 CSV、JSON、XML、Excel 和 PDF 文件。PDF 中的数据很难解析,你可能认为数据解析的世界不能比这更糟了。遗憾的是,还有比这更糟糕的事情。

好消息是,你可能不会遇到前人尚未解决的问题。记住,向 Python 社区或更高一级的开源社区寻求帮助和建议,这永远都是一个好方法,即使你已经认识到应该寻找更容易解析的数据集。

如果数据具有以下特征,你可能会遇到问题。

· 文件由旧系统生成,使用的是一种不常见的文件类型。

· 文件由专用系统(proprietary system)生成。

· 你所有的程序都无法打开该文件。

对于与不常见文件类型相关的问题,仅仅用你之前学过的知识就可以解决。

(1) 确定文件类型。如果从文件扩展名上不容易看出,那么可以用 python-magic 库(https://pypi.python.org/pypi/python-magic/0.4.6)。

(2) 在互联网上搜索“how to parse <file extension> in Python”(用 Python 如何解析 < 文件扩展名 >),将“<file extension>”替换为实际的文件扩展名。

(3) 如果找不到显而易见的解决方法,尝试用文本编辑器打开该文件,或者用 Python 的 open 函数读取该文件。

(4) 如果字符看起来很奇怪,读一些关于 Python 编码的内容。如果你是第一次接触 Python 字符编码,可以观看 PyCon 2014 的演讲“Python 中的字符编码和 Unicode”(https://www.youtube.com/watch?v=Mx70n1dL534)。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文