  • 内存中
  • 非常低的内存占用
  • 速度

这是我的“问题”:我需要在内存中存储大量非常稀疏的位数组。这些位集是“仅附加”的,主要用于交叉点。我所说的巨大是指高达 200 000 个位数组。

每个位组的范围应在 [0...16 000 000] 之间。

我“仅”使用包含一些实际数据的 10 673 位数组进行了一些预测试,并得到了以下结果:

  1% of the bit arrays (  106 bit arrays) Hamming weight: at most     1 bit  set
  5% of the bit arrays (  534 bit arrays) Hamming weight: at most     4 bits set
 10% of the bit arrays ( 1068 bit arrays) Hamming weight: at most     8 bits set
 15% of the bit arrays ( 1603 bit arrays) Hamming weight: at most    12 bits set
 20% of the bit arrays ( 2137 bit arrays) Hamming weight: at most    17 bits set
 25% of the bit arrays ( 2671 bit arrays) Hamming weight: at most    22 bits set
 30% of the bit arrays ( 3206 bit arrays) Hamming weight: at most    28 bits set
 35% of the bit arrays ( 3740 bit arrays) Hamming weight: at most    35 bits set
 40% of the bit arrays ( 4274 bit arrays) Hamming weight: at most    44 bits set
 45% of the bit arrays ( 4809 bit arrays) Hamming weight: at most    55 bits set
 50% of the bit arrays ( 5343 bit arrays) Hamming weight: at most    67 bits set
 55% of the bit arrays ( 5877 bit arrays) Hamming weight: at most    83 bits set
 60% of the bit arrays ( 6412 bit arrays) Hamming weight: at most   103 bits set
 65% of the bit arrays ( 6946 bit arrays) Hamming weight: at most   128 bits set
 70% of the bit arrays ( 7480 bit arrays) Hamming weight: at most   161 bits set
 75% of the bit arrays ( 8015 bit arrays) Hamming weight: at most   206 bits set
 80% of the bit arrays ( 8549 bit arrays) Hamming weight: at most   275 bits set
 85% of the bit arrays ( 9083 bit arrays) Hamming weight: at most   395 bits set
 90% of the bit arrays ( 9618 bit arrays) Hamming weight: at most   640 bits set
 95% of the bit arrays (10152 bit arrays) Hamming weight: at most  1453 bits set
 96% of the bit arrays (10259 bit arrays) Hamming weight: at most  1843 bits set
 97% of the bit arrays (10366 bit arrays) Hamming weight: at most  2601 bits set
 98% of the bit arrays (10473 bit arrays) Hamming weight: at most  3544 bits set
 99% of the bit arrays (10580 bit arrays) Hamming weight: at most  4992 bits set
100% of the bit arrays (10687 bit arrays) Hamming weight: at most 53153 bits set


开启的位数组位有点分组,但不是完全分组。因此,您往往会在同一区域中打开多个位(但通常不会一个接一个地打开,这使得 RLE 对于打开的位来说不太好)。




  • 1 位:如果打开,以下 5 位确定需要多少位来计算“跳过”,如果关闭,则优化:以下 5 位确定有多少位也按字面意思(即“开”或“关”,不跳过)[只有当确定比其他表示更有效时才会切换到,因此当它启动时,它应始终是一个优化(大小方面)]

  • 5 位:我们可以在下一个位之前跳过多少位

  • 5 位:我们可以在

    x 位

这是一个示例:位数组有 3 位设置,第一位位于 3 098 137,第二位位于 3 098 141,第三位位于 3 098 143。

                               +-- now we won't skip
                               |     +-- 3 because we need 3 bits to store "6" (from 3 098 138 to 3 098 143)
                               |     |    +--- 3 098 141 is on
  22    3 098 137              |     3    | +- 3 098 143 is on
1 10110 1011110100011000011001 0 00011 000101 etc. 

第一位 on 告诉我们要跳过位。 接下来的 5 位(始终为 5)告诉我们需要多少位来告诉我们要跳过多少位 22 位指示跳至 3 098 137 现在我们不会跳过一点点 接下来的 5 位(始终为 5)告诉我们将“按原样”读取多少位 6 位:off、off、off、on、off、on 含义 3 098 141 和 3 098 143 开启 等等。


因此,使用该编码,我获取了样本数据并计算了“最坏情况”场景(我还没有编写算法,我宁愿先从这里获取一些输入):基本上我认为不仅“大小”优化”永远不会启动,而且 5 位将始终设置为其最大值(24 位),这当然不可能发生。



Worst case scenario: 

108 913 290 bits needed for the 10 687 very sparse bit arrays
12.9 MB (13 295 KB)

数据是实际数据,所有数据都是相似的,我知道,如果情况变得更糟,我可以将我的 200 000 位数组存储在大约 240 MB 中,这很好。


关于如何提高大小效率的任何提示/想法(记住这些是超稀疏位数组,应有数十万个,它们必须在内存中,并且它们应“仅附加”) ?


基本上,我有一个不断增长的“扩展”(范围,但“扩展”是实际的我理解的术语)和许多具有一些位集的位数组。当范围从 0 到 1 000 000 时,所有位数组的范围从 0 到 1 000 000。当范围增长到 1 000 001 时,所有位数组也会增长,全部增长一位。但大多数位数组的末尾都会附加一个“0”,而大约 4 到 8 个位数组的末尾会附加一个“1”。但是我无法提前预测哪个位数组将附加 0 或 1。

因此,我有很多大小相同的位数组,它们都非常稀疏(< 其位集的 0.5%),并且随着范围的增长而“增长”(因此它们总是以同样的速度增长)。

Judy 数组非常棒。但几年前我读到过有关它们的内容,这些东西“超出了我的想象”。 Judy 数组是一个仅 C 语言的 20KLOC 库,我绝对不会重新实现它。但他们很棒。


你没有说你想使用什么编程语言。听起来你不想要 Judy,因为它是“仅限 C”...如果你使用 C# 那么你可以使用我的 紧凑型 Patricia Trie 代替。大约有 4500 个 LOC(已注释),并且使用与 Judy 类似的思想,但由于 .NET 的限制,每个 trie 的大小和速度并不理想。它也没有针对计算交叉点进行优化,但可以添加这样的算法。关于CP Tries的文章没有强调这一点,但它可以比字典更紧凑地存储集合(稀疏位数组)(文章中的图表显示了字典的大小和速度,而不是集合)。

最好的情况是密集的位簇。当占用率为 50%(每隔一个位设置)时,每个密钥需要少于 8 位(每个整数少于 4 位)。 (更正:少于 8 位,而不是更多。)

如果您只需要数据的近似表示,请使用 布隆过滤器


更新:由于您只是添加较大的密钥,因此您可能应该针对您的情况设计一种特殊的算法。 IMO,在设计自定义算法时,应该使其尽可能简单。所以这是我的想法,它假设不同位集的键是不相关的(因此尝试压缩不同位集之间的数据没有任何好处):

位集由 32 位槽的排序数组表示。因为它是排序的,所以您可以使用二分搜索来查找键。每个槽由 24 位“前缀”和 8 位“标志”组成。每个槽代表一个包含 8 个键的区域。 “标志”告诉您位集中存在该区域中的 8 个键中的哪一个,“前缀”通过指定键的第 3 到 26 位来告诉您我们正在讨论哪个区域。例如,如果位集中以下位为“1”:

1, 3, 4, 1094, 8001, 8002, 8007, 8009

...则位集由 4 个槽(16 字节)的数组表示:

Prefix:     0,  136, 1000, 1001
 Flags:  0x15, 0x40, 0x86, 0x02

第一个槽代表 1、3、4(请注意,位 1、3 4设置在编号0x15);第二个槽代表 1094 (136 * 8 + 6);第三个槽位代表8001、8002和8007;第四个槽代表8009。这有道理吗?


丢了幸福的猪 2024-10-07 08:51:39

假设您有一个范围为 [M..N] 的数组。

为 [0...ram size] 选择一些数字编码,例如 Fibonacci、Golomb 或 Rice 代码(在使用实际数据分析程序后,您可以选择最合适的表示形式)。

  1. 如果数组为空(没有设置位),则将其存储为数字 0。
  2. 如果数组已满(设置了所有位),则将其存储为数字 1。
  3. 否则将其分为两部分:A in [M..(M+ N)/2-1] 和 [(M+N)/2..N] 中的 B
  4. 使用此算法递归生成 P0 和 P1 的表示。
  5. 获取 P0 的长度(以位或其他单位为单位,长度可能是整数)并将其存储为数字(如果长度可能为 1,则可能需要加 1,例如,将 0 存储为单个位 0)。
  6. 先存储 P0,然后存储 P1。



  1. 如果数组 A 为空,则存储 0。
  2. 如果数组 A 已满,则存储 B 的副本
  3. 否则拆分数组,使两半相交,存储前半部分的长度,然后是两半部分的长度。


此外,您还可以为具有单个位集的数组添加特殊编码,所有数组的大小小于某个限制(例如 8 个元素),以降低递归级别。


例如,设置了单个 0xAB 位的数组应存储在 0..0xFF 的数组中,如下所示(伪代码):

0  1      2   3  4      5  6  7      8  9  10     11 12     13    14     15     16
                                                   |  AA  | AB  |
                                         |A8..A9| AA    ..   AB |
                                      | A8         ..        AB |AC..AF|
                            |A0..A7| A8             ..              AF |
                         | A0                 ..                    AF |B0..BF|
               |80..9F| A0                        ..                       BF |
            | 80                                 ..                        BF |C0..FF|
 | 0..7F| 80                                          ..                          FF |       

EMPTY 和 FULL 是空数组和满数组的代码,数字是元素中的长度(应替换为以字节为单位的实际长度) ,位左右)

只需使用代码存储设置位之间的距离:fibonacci、rice、golomb、levenshtein、elias 等,或者发明另一种代码。
请注意,为了获得最小的代码长度,您应该使用代码长度尽可能接近 -log p/log 2 的代码,其中 p 是该代码的概率。您可以使用霍夫曼代码。

例如,使用 elias gamma 代码,所以像这样的数组:

0 1 0000 1 1 000 1 0 1 000000000000000000 1 000000000000000000 
2     5   1   4    2         19                   18           (distance)


010 00101 1 00100 010 000010011 000010010
 2    5   1   4    2     19        18     (distance code explained)

对于具有均匀位分布的数组,大多数紧凑的将是算术编码,但它非常消耗 CPU 时间。因为您必须一点一点地读取和写入此类数组,并且无法快速跳过。

太阳公公是暖光 2024-10-07 08:51:39

考虑到无论如何您都将进行大量交叉测试,也许您应该尝试并行存储所有位向量。一个稀疏的 16M 条目列表。该列表中的每个条目都包含一个列表,其中列出了 200k 个输入位向量中哪些在该位置具有“1”。看起来您预计每个输入向量只设置大约 5 位,或者总条目数为 1M?对顶层和存储桶采用稻草人链表实现,并且在根本没有交集的最坏情况下(因此 1M 个存储桶,每个存储桶有 1 个元素),您可以将其全部存储在 32MB 中。

Considering you are going to do a bunch of intersection tests anyway, maybe you should try storing all of the bitvectors in parallel. One sparse, 16M entry list. Each entry in that list contains a list of which of the 200k input bitvectors has a '1' at that location. It looks like you expect to have only about 5 bits set per input vector, or 1M total entries? Taking a straw-man linked list implementation for the toplevel and the buckets, and a worst case of no intersections at all (thus 1M buckets with 1 element each) you could store it all in 32MB.

别低头,皇冠会掉 2024-10-07 08:51:39

您可能对二元决策图 (BDD) 感兴趣,更准确地说是零抑制二元决策图 (ZBDD)。

它们用于以压缩方式表示集合。与其他压缩形式不同,操作(例如集合交集或元素插入 - 您的“仅附加”事物?)直接在压缩形式上工作。

You might be interested in Binary Decision Diagrams (BDD), and more precisely Zero-suppressed Binary Decision Diagram (ZBDD).

They are used to represent sets in a compressed way. Unlike other compressed forms, operations (such as set intersections, or insertions of elements - your "append only" thing?) work directly on the compressed form.

