5.5 不常见的文件类型

发布于 2024-01-27 21:43:11 字数 953 浏览 0 评论 0 收藏 0

目前为止，本书已经讲过 CSV、JSON、XML、Excel 和 PDF 文件。PDF 中的数据很难解析，你可能认为数据解析的世界不能比这更糟了。遗憾的是，还有比这更糟糕的事情。

好消息是，你可能不会遇到前人尚未解决的问题。记住，向 Python 社区或更高一级的开源社区寻求帮助和建议，这永远都是一个好方法，即使你已经认识到应该寻找更容易解析的数据集。

如果数据具有以下特征，你可能会遇到问题。

· 文件由旧系统生成，使用的是一种不常见的文件类型。

· 文件由专用系统（proprietary system）生成。

· 你所有的程序都无法打开该文件。

对于与不常见文件类型相关的问题，仅仅用你之前学过的知识就可以解决。

(1) 确定文件类型。如果从文件扩展名上不容易看出，那么可以用 python-magic 库（https://pypi.python.org/pypi/python-magic/0.4.6）。

(2) 在互联网上搜索“how to parse <file extension> in Python”（用 Python 如何解析 < 文件扩展名 >），将“<file extension>”替换为实际的文件扩展名。

(3) 如果找不到显而易见的解决方法，尝试用文本编辑器打开该文件，或者用 Python 的 open 函数读取该文件。

(4) 如果字符看起来很奇怪，读一些关于 Python 编码的内容。如果你是第一次接触 Python 字符编码，可以观看 PyCon 2014 的演讲“Python 中的字符编码和 Unicode”（https://www.youtube.com/watch?v=Mx70n1dL534）。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据