返回介绍

用转义序列代表特殊字节

发布于 2024-01-29 22:24:17 字数 2506 浏览 0 评论 0 收藏 0

上一个例子通过在引号前增加一个反斜杠的方式可以在字符串内部嵌入一个引号。这是字符串中的一个常见的表现模式:反斜杠用来引入特殊的字节编码,是转义序列。

转义序列让我们能够在字符串中嵌入不容易通过键盘输入的字节。字符串常量中字符“\”,以及在它后边的一个或多个字符,在最终的字符串对象中会被一个单个字符所替代,这个字符通过转义序列定义了一个二进制值。例如,这里有一个五个字符的字符串,其中嵌入了一个换行符和一个制表符:

其中两个字符"\n"表示一个单个字符——在字符集中包含了换行字符这个值(通常来说,ASCII编码为10)的字节。类似的,序列"\t"替换为制表符。这个字符串打印时的格式取决于打印的方式。交互模式下是以转义字符的形式回显的,但是print会将其解释出来:

为了清楚地了解这个字符串中到底有多少个字节,使用内置的len函数。它会返回一个字符串中到底有多少字节,无论它是如何显示的:

这个字符串长度为五个字节:分别包含了一个ASCII a字符,一个换行字符、一个ASCII b字符等。注意原始的反斜杠字符并不真正和字符串一起存储在内存中;它们告诉Python字符串中保存的特殊字节值。对于这些特殊字符的编写,Python提供了一整套转义字符序列,如表7-2所示。

一些转义序列允许一个字符串的字节中嵌入绝对的二进制值。例如,这里有一个五个字符的字符串,其中嵌入了两个二进制零字符(将八进制编码转义为一个数字):

在Python中,零(空)字符不会像C语言那样去结束一个字符串。相反,Python在内存中保持了整个字符串的长度和文本。事实上,Python没有字符会结束一个字符串。这里有一个完全由绝对的二进制转义字符编码的字符串——一个二进制1和2(以八进制编码)以及一个二进制3(以十六进制编码):

注意,Python以十六进制显示非打印的字符,不管是如何指定它们的。我们可以自由地组合表7-2中的绝对值转义和更多符号转义类型。如下的字符串包含了字符"spam"、一个制表符和换行符,以及以十六进制编码的一个绝度零值字节:

当使用Python处理二进制数据文件时,了解这些知识显得格外重要。因为它的内容在脚本中是以字符串的形式表现的,处理包含了任意种类的二进制字符值的二进制文件也是完全可行的(在第9章有更多关于文件的细节)[1]

最后,如表7-2最后一条所显示的,如果Python没有作为一个合法的转义编码识别出在“\”后的字符,它就直接在最终的字符串中保留反斜杠。

除非你能够将表7-2中的所有内容都记住,这样你也许不会依赖这种现象[2]。如果希望在脚本中编写明确的常量反斜杠,重复两个反斜杠(“\\”是“\”的转义字符)或者使用raw字符串。在下一部分内容中我将对raw进行介绍。

[1]如果你对二进制数据文件特别感兴趣的话,其主要的不同就在于它们是你在二进制模式下打开的(使用open模式的标志位b,例如'rb','wb'等)。在Python 3.0中,二进制文件的内容是一个bytes字符串,带有一个类似于常规字符串的接口;在Python 2.6中,这样的内容是一个常规的str字符串。请参照第9章中介绍的标准struct模块,它可以解析处理从一个文件载入的二进制数据;第36章将更广泛地介绍二进制文件和字节字符串。

[2]在课堂上,我确实见过把这张表中的大多数或全部内容都记住的人;而我通常会认为这样是没有必要的,但是实际上我也把它们都记住了。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文