当前位置：文江博客话题详情

使用 Python 2/3 解析 ANSI 和 UTF-16LE 文件的最佳方法？

发布于 2024-07-19 00:34:29 字数 145 浏览 15 评论 0 原文

我有一组以 ANSI 或 UTF-16LE 编码的文件。我希望 python 使用正确的编码打开文件。问题是 ANSI 文件在使用 UTF-16le 编码时不会引发任何类型的异常，反之亦然。

有没有一种简单的方法可以使用正确的文件编码打开文件？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

自由范儿 2024-07-26 00:34:29

使用 chardet 库来检测编码。

回复收藏 0 原文

因为看清所以看轻 2024-07-26 00:34:29

您可以检查文件开头的 BOM检查是否是UTF。

然后相应地 unicode.decode （使用标准编码）。

编辑
或者，也许，尝试 s.decode('ascii') 你的字符串（假设 s 是变量名）。如果它抛出 UnicodeDecodeError，则将其解码为“utf_16_le”。

回复收藏 0 原文

风渺 2024-07-26 00:34:29

文件里有什么？如果它是基于拉丁字母表的纯文本，则 UTF-16LE 文件的几乎所有其他字节都为零。另一方面，在 windows-1252 文件中，我根本不希望看到任何零。例如，这里是 windows-1252 中的 “Hello”：

93 48 65 6C 6C 6F 94

...以及 UTF-16LE 中：

1C 20 48 00 65 00 6C 00 6C 00 6F 00 1D 20

除了大引号之外，每个字符都映射到相同的值，并添加尾随零字节。事实上，对于 ISO-8859-1 字符集中的每个字符都是如此（windows-1252 扩展了 ISO-8859-1 以添加多个打印字符的映射（例如大引号），以替换范围 中的控制字符0x80..0x9F）。

如果您知道所有文件都是 windows-1252 或 UTF-16LE，则只需快速扫描零即可找出哪个是哪个。 chardet 如此缓慢和复杂是有充分理由的，但在这种情况下，我认为你可以摆脱快速和肮脏的做法。

What's in the files? If it's plain text in a Latin-based alphabet, almost every other byte the UTF-16LE files will be zero. In the windows-1252 files, on the other hand, I wouldn't expect to see any zeros at all. For example, here's “Hello” in windows-1252:

93 48 65 6C 6C 6F 94

...and in UTF-16LE:

1C 20 48 00 65 00 6C 00 6C 00 6F 00 1D 20

Aside from the curly quotes, each character maps to the same value, with the addition of a trailing zero byte. In fact, that's true for every character in the ISO-8859-1 character set (windows-1252 extends ISO-8859-1 to add mappings for several printing characters—like curly quotes—to replace the control characters in the range 0x80..0x9F).

If you know all the files are either windows-1252 or UTF-16LE, a quick scan for zeroes should be all you need to figure out which is which. There's a good reason why chardet is so slow and complex, but in this case I think you can get away with quick and dirty.

回复收藏 0 原文

~没有更多了~

关于作者

月朦胧

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

使用 Python 2/3 解析 ANSI 和 UTF-16LE 文件的最佳方法？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

使用 Python 2/3 解析 ANSI 和 UTF-16LE 文件的最佳方法？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。