当前位置：文江博客话题详情

ASCII 编码 UTF-8 的有效方法

发布于 2024-08-27 03:34:53 字数 337 浏览 9 评论 0原文

我正在寻找一种简单有效的方法来以 ASCII-7 存储 UTF-8 字符串。高效的意思是：

输入中的所有 ASCII 字母数字字符应与输出中的 ASCII 字母数字字符保持相同
生成的字符串应尽可能短
操作需要可逆，而不会丢失任何数据
生成的 ASCII 字符串应为大小写不敏感
对输入长度不应该有限制
应该允许整个 UTF-8 范围

我的第一个想法是使用 Punycode (IDNA)，因为它符合前四个要求，但在后两个要求上失败了。

谁能推荐一种替代编码方案？如果有一些代码可供查看就更好了。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜宝宝 2024-09-03 03:34:54

由于 ASCII 涵盖了 7 位值的整个范围，因此保留所有 ASCII 字符、7 位长并对整个 Unicode 范围进行编码的编码方案是不可能的。

编辑添加：

我想我现在明白你的要求了。您正在寻找一种以七位代码对 UTF-8 字符串进行编码的方法，其中，如果该编码字符串被解释为 ASCII 文本，则可以任意修改字母字符的大小写，但解码后的字符串将与原始字节逐字节相同。

如果是这种情况，那么最好的选择可能就是将原始数据的二进制表示形式编码为十六进制数字字符串。我知道您正在寻找更紧凑的表示形式，但考虑到系统的其他限制，这是一个相当高的要求，除非设计了一些自定义编码。

由于十六进制表示可以对任意二进制值进行编码，因此可以在获取十六进制值之前通过压缩字符串来缩小字符串。

回复收藏 0 原文

找回味觉 2024-09-03 03:34:54

如果您谈论的是非标准方案 - MECE

回复收藏 0 原文

你的背包 2024-09-03 03:34:54

URL 编码或数字字符引用是两个可能的选项。

回复收藏 0 原文

风柔一江水 2024-09-03 03:34:54

这取决于字符串中字符的分布。

Quoted-printable 对于大多数 ASCII 字符串很有用，因为除了“=”和控制字符之外没有任何开销。但是，每个非 ASCII 字符占用 6-12 个字节，效率很低，因此如果您有很多非 ASCII 字符，则需要考虑使用 UTF-7 或 Base64。

回复收藏 0 原文

妥活 2024-09-03 03:34:54

Punycode 用于 IDNA，但您可以在其施加的限制之外使用它

本身，Punycode 不会满足您的最后 2 个要求：（

>>> import sys
>>> _ = ("\U0010FFFF"*10000).encode("punycode")
>>> all(chr(c).encode("punycode") for c in range(sys.maxunicode))
True

对于 idna，python 提供另一种同名编码）

显然，如果您不 nameprep 输入，编码的字符串不再严格区分大小写...但是如果您只提供小写字母（或者如果您不关心解码后的大小写），那么您应该可以开始

Punycode is used for IDNA, but you can use it outside the restrictions imposed by it

Per se, Punycode doesn't fail your last 2 requirements:

>>> import sys
>>> _ = ("\U0010FFFF"*10000).encode("punycode")
>>> all(chr(c).encode("punycode") for c in range(sys.maxunicode))
True

(for idna, python supplies another homonymous encoding)

obviously, if you don't nameprep the input, the encoded string isn't strictly case-insensitive anymore... but if you supply only lowercase (or if you don't care about the decoded case) you should be good to go

回复收藏 0 原文

苏辞 2024-09-03 03:34:53

UTF-7，或者，稍微不那么透明但更广泛，引用打印。

输入中的所有 ASCII 字符应在输出中保留 ASCII 字符

（显然这不完全可能，因为您至少需要一个字符来充当转义符。）

回复收藏 0 原文

~没有更多了~

关于作者

戏蝶舞

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

ASCII 编码 UTF-8 的有效方法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

13886483628

流年已逝

℡寂寞咖啡

笑看君怀她人

wkeithbarry

素手挽清风

友情链接

ASCII 编码 UTF-8 的有效方法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

13886483628

流年已逝

℡寂寞咖啡

笑看君怀她人

wkeithbarry

素手挽清风

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。