python utf-8编码的'潜水' 被识别为gb2312

发布于 2022-08-30 16:44:23 字数 937 浏览 18 评论 0

# coding=utf-8
import chardet
a='潜'
b='水'
c='潜水'
print [a]
print chardet.detect(a)
print [b]
print chardet.detect(b)
print [c]
print chardet.detect(c)

运行的结果：

['\xe6\xbd\x9c']
{'confidence': 0.505, 'encoding': 'utf-8'}
['\xe6\xb0\xb4']
{'confidence': 0.505, 'encoding': 'utf-8'}
['\xe6\xbd\x9c\xe6\xb0\xb4']
{'confidence': 0.99, 'encoding': 'GB2312'}

utf-8编码的两个字放在一起就被当成了gb2312格式。
我找了很久python编码的问题，但是还是找不到解决方案。
希望有朋友能解答。
补充，我是在ubuntu中测试的。
在mac下测试是正常的。
用的是 python2.7.6

locale:
LANG=zh_CN.UTF-8
LANGUAGE=zh_CN:zh
LC_CTYPE="zh_CN.UTF-8"
LC_NUMERIC="zh_CN.UTF-8"
LC_TIME="zh_CN.UTF-8"
LC_COLLATE="zh_CN.UTF-8"
LC_MONETARY="zh_CN.UTF-8"
LC_MESSAGES="zh_CN.UTF-8"
LC_PAPER="zh_CN.UTF-8"
LC_NAME="zh_CN.UTF-8"
LC_ADDRESS="zh_CN.UTF-8"
LC_TELEPHONE="zh_CN.UTF-8"
LC_MEASUREMENT="zh_CN.UTF-8"
LC_IDENTIFICATION="zh_CN.UTF-8"
LC_ALL=

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

望她远 2022-09-06 16:44:23

现在是科普时间。（fault 需要科普的太多了，大部分问题根本不是不会，而是基础不行）

首先你得先搞清楚什么是编码。

对于计算机来说，它认识的就是01，称为 1bit，然后我们一般将 8bit 称为 1byte。那么这 1byte 能表示多少个字符呢？ 2^8 = 256 种。那么问题来了，对于中文来说，上万个字，怎么表示得完啊。
于是，就有了用多个 bytes 表示一个字的方法，这个表示方法就叫做编码。

而编码有各种不同的标准，比如 gb2312 比如 gb18030 比如 utf8。当你看到一个二进制串的时候，你的告诉我，它是什么编码的，别人才能理解。所以单独给出一个二进制串，它是什么编码的，是没有办法知道的，只能猜。
因为很重要，再说一遍，一个二进制串是什么编码的，只能猜，通过组合多个 bytes 看他是否在某个编码下合法，组合出来的字是否常见，猜！所以对于短文本，这是很不准的。甚至有一个二进制传，同时在 utf8 和 gb2312 下都是合法，合理的文字。

所以，回到你这个问题，一般来说 gb2312 是 2bytes 的，而且几乎所有的 2bytes 都能转换成 gb2312，所以，当它是一个字的时候，chardet 不会猜它是 gb2312，但是两个字的时候就有可能会。

什么是 unicode

这一堆编码有两个问题：

世界上有很多语言，有更多种编码
gb2312 只有两字节，表示不完所有语言文字，而 utf8 是不定长的，你没法通过数二进制串知道它有几个字。

为了解决这两个问题，unicode 出现了，unicode 设计能够在编码空间内（不准确），容纳所有语言的所有字符。并且它是定长的（不准确）。所以，在 Python 中，我们提倡所有文字都使用 unicode。

但是，回到计算机体系中，计算机只认识 01，你是不能将一个 unicode 传递给别的系统的（不准确）。他们之间的传递，必须是二进制串。在这时，你必须将 unicode encode 为一个特定编码，而且这个编码是和对方系统约定好的。不然就会出现乱码，或者异常。这个过程发生在，例如：

print 输出
将文字保存到文件
储存数据库
网络发包
调用 shell 程序

等等。

因为很重要再说一遍，你必须和对方系统约定正确的编码。二进制串不指定编码，别人是无法理解的。

回复收藏 0

走野 2022-09-06 16:44:23

为什么不使用unicode?

# coding=utf-8
a = u'潜'
b = u'水'
c = u'潜水'

回复收藏 0

倾听心声的旋律 2022-09-06 16:44:23

编码自动检测没有万全之策，'\xe6\xbd\x9c\xe6\xb0\xb4' 可能在UTF-8和GB231编码方式下都能正确解析。

其实系统的当前locale设置应该是没有关系的。charset detecting 就是要在不知道目标文本的编码情况下，根据文本中的特征猜测字符集编码。所以原理上是不存在100%正确率的。

如果你为了保险，应该设上环境变量LC_ALL。LANG和LANGUAGE的影响都没有LC_ALL大。至于不同平台的结果不同，我们可以猜测为算法可能使用了平台相关的locale数据库一类的信息，或者是python的某些函数在不同平台上有差异。

回复收藏 0

a√萤火虫的光℡ 2022-09-06 16:44:23

找到了chardet的算法：http://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html

同样的代码，不一样的结果，环境mac os 10.10

>>> a='潜'
>>> b='水'
>>> c='潜水'
>>> import chardet
>>> print [a]
['\xe6\xbd\x9c']
>>> print chardet.detect(a)
{'confidence': 0.73, 'encoding': 'windows-1252'}
>>> print [b]
['\xe6\xb0\xb4']
>>> print chardet.detect(b)
{'confidence': 0.73, 'encoding': 'windows-1252'}
>>> print [c]
['\xe6\xbd\x9c\xe6\xb0\xb4']
>>> print chardet.detect(c)
{'confidence': 0.7525, 'encoding': 'utf-8'}

只能说，这货跟系统还有关

回复收藏 0