对有限集中的符号列表进行编码的最紧凑方法是什么？

发布于 2024-12-29 07:10:33 字数 676 浏览 3 评论 0原文

我感兴趣的是用最少的字节数表示有限集中的符号序列。

例如，假设您有一个仅包含字符 az 的文本字符串。您可以将它们编码为 ascii，即每个符号（字符）1 个字节。但是，通过这样做，您仅使用每个字节可能的 256 个值中的 26 个。

我已经编写了一个似乎运行良好的解决方案，但我想知道是否有人知道或能想到更好的方法。

我的方法是将序列视为以 n 为基数的整数，其中 n 是符号集的大小 + 1。例如，如果您的集合或符号或“字母表”是 {a, b, c} （长度为 3），那么我们将使用基数 4。这些符号被分配了数值，因此 {a =>; 1、b=> 2、c=> 3}。因此，序列[b, a, c] 被视为基数为 4 的数字 213，即十进制的 39。该整数可以用二进制编码，并解码回其基数 4 表示形式以检索序列 2, 1, 3 => [b，a，c]。

我对上述内容的Python实现： radixcodec.py

所以我的问题是，是否有一种比我描述的方法更节省空间的方法来编码有限集中的元素列表？

原文