当前位置：文江博客话题详情

普通的Python字符串使用什么编码？

发布于 2024-09-15 05:42:22 字数 92 浏览 3 评论 0原文

我知道 django 在整个框架中使用 unicode 字符串而不是普通的 python 字符串。普通的Python字符串使用什么编码？他们为什么不使用 unicode？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

清浅ˋ旧时光 2024-09-22 05:42:22

在 Python 2 中：普通字符串 (Python 2.x str) 没有编码：它们是原始数据。

在 Python 3 中：这些被称为“字节”，这是一个准确的描述，因为它们只是字节序列，可以用任何编码（几种常见的编码）进行文本编码！）或完全非文本数据。

为了表示文本，您需要 unicode 字符串，而不是字节字符串。“unicode 字符串”是指 Python 2 和 中的 unicode 实例Python 3 中的 >str 实例。Unicode 字符串是抽象表示的 unicode 代码点序列，无需编码；这非常适合表示文本。

字节串很重要，因为要表示通过网络传输或写入文件等的数据，您不能拥有 unicode 的抽象表示，您需要字节的具体表示。尽管它们经常被用来存储和表示文本，但这至少有点顽皮。

整个情况变得复杂，因为虽然您应该通过调用encode将unicode转换为字节，并使用decode将字节转换为unicode，但Python会尝试使用您可以设置的全局编码自动为您执行此操作，默认情况下为 ASCII，这是最安全的选择。永远不要在你的代码中依赖它，也永远不要将其更改为更灵活的编码——当你获取字节串时显式解码，如果你需要将字符串发送到外部某个地方则进行编码。

回复收藏 0 原文

Smile简单爱 2024-09-22 05:42:22

嘿！我想在其他答案中添加一些内容，不幸的是我还没有足够的代表来正确地做到这一点:-(

FWIW，迈克·格雷厄姆的帖子非常好，这可能是你应该首先阅读的内容。

这里有一些评论：

在最近的 (2.6+) 2.x Python 中，在 2.x 中使用“u”作为 unicode 文字前缀的需要很容易被删除 from __future__ import unicode_literals
同样，ASCII 只是默认的源编码。 Python 可以理解各种编码提示，包括 emacs 风格的 # -*- 编码：utf-8 -*-。 org/dev/peps/pep-0263/" rel="noreferrer">PEP 0263。更改源编码会影响 Unicode 文字的解释方式（无论其前缀或缺少前缀，受第 1 点影响）在 Py3k 中，默认文件编码是 UTF-8。Python
当然在内部使用 Unicode 字符串编码（py3k 中为 str，2.x 中为 unicode）。在某个时间点，一些东西必须被写入内存。理想情况下，这对最终用户来说永远不会显而易见。不幸的是，没有什么是完美的，您偶尔会遇到问题：特别是如果您在 Unicode 基本多语言平面之外使用时髦的曲线。从 Python 2.2 开始，我们就有了所谓的“宽”构建和“窄”构建；这些名称指的是内部用于存储 Unicode 代码点的类型。 Wide 版本使用 UCS-4，它使用 4 个字节来存储 Unicode 代码点。（这意味着 UCS-4 的代码单元大小为 4 字节或 32 位。）窄版本使用 UCS-2。 UCS-2 只有 16 位，因此无法准确编码所有 Unicode 代码点（它类似于 UTF-16，除了没有代理项对）。要进行检查，请测试 sys.maxunicode 的值。如果是 1114111，则您拥有宽构建（可以正确表示所有 Unicode）。如果少了，那就不用太担心了。 BMP（代码点0x0000到0xFFFF）可以满足大多数人的需求。有关详细信息，请参阅 PEP 0261。

回复收藏 0 原文

当爱已成负担 2024-09-22 05:42:22

正常的python是什么编码
字符串使用？

在 Python 3.x 中

str 是 Unicode。这可能是 UTF-16 或 UTF-32，具体取决于您的 Python 解释器是使用“窄”还是“宽”Unicode 字符构建的。

Windows 版本的 CPython 使用 UTF-16。在类 Unix 系统上，UTF-32 往往是首选。

在 Python 2.x 中，

str 是一种字节字符串类型，类似于 C char。编码不是由语言定义的，而是由您的语言环境的默认编码决定的。或者无论您从 Internet 上获取的文档的 MIME 字符集是什么。或者，如果您从像 struct.pack 这样的函数获取字符串，那么它是二进制数据，并且根本没有有意义的字符编码。

2.x 中的 unicode 字符串相当于 3.x 中的 str。