返回介绍

在 Python 3.0 中处理 BOM

发布于 2024-01-29 22:24:14 字数 1915 浏览 0 评论 0 收藏 0

正如本章前面所介绍的,一些编码方式在文件的开始处存储了一个特殊的字节顺序标记(BOM)序列,来指定数据的大小尾方式或声明编码类型。如果编码名暗示了BOM的时候,Python在输入和将其写入输出的时候都会忽略该标记,但是有时候必须使用一个特定的编码名称来迫使显式地处理BOM。

例如,当我们把一个文本文件保存到Windows Notepad中的时候,可以在一个下拉列表中指定其编码类型——简单的ASCII文本、UTF-8或者小尾或大尾的UTF-16。例如,如果一个单行的、名为spam.txt的文本文件在Notepad中按照编码类型"ANSI"保存,它会编写为一个简单的ASCII文件而没有一个BOM。当这个文件在Python中以二进制模式读取的时候,我们可以看到存储在文件中的真正的bytes。当它作为文本读取的时候,Python默认会执行行尾转换,既然ASCII是UTF-8的一个子集(并且UTF-8是Python 3.0的默认编码),我们可以将其显式地解码为UTF-8文本:

如果文件在Notepad中保存为"UTF-8",预先使用一个3字节UTF-8 BOM序列,并且我们需要给出更多具体编码名称("utf-8-sig")来迫使Python跳过标记:

如果文件作为“Unicode大尾”存储在Notepad中,我们得到了文件中的UTF-16格式的数据,预先使用一个两字节的BOM序列——在Python中,编码名"utf-16"忽略BOM,因为它是暗示的(因为所有的UTF-16文件都有一个BOM),并且"utf-16-be"处理大尾格式但不会忽略BOM:

对于输出通常也是这样。当用Python代码写入一个Unicode文件,我们需要一个更加显式的编码名称来强迫UTF-8中带有BOM——"utf-8"不会写入(或忽略)BOM,但"utf-8-sig"会这么做:

注意,尽管"utf-8"没有抛弃BOM,但不带BOM的数据可以用"utf-8"和"utf-8-sig"读取——如果你不确定一个文件中是否有BOM,使用后者进行输入(在机场安全检测线上,不要大声读出这一段):

最后,对于编码名"utf-16",BOM自动处理:在输出上,数据以平台本地的大小尾方式写入,并且,BOM总是会写的;在输入上,数据根据每个BOM解码,并且BOM总是会去除掉。更具体的UTF-16编码名称可以指定不同的大小尾,尽管在某些情况下如果需要或显示BOM的话,我们必须自己手动地编写和略过BOM:

更具体的UTF-16编码名称对于缺乏BOM的文件都工作得很好,尽管"utf-16"在输入时需要一个BOM以便确定字节顺序:

自己尝试实验这些编码,或者查看Python的库手册,以了解关于BOM的更多细节。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文