当前位置：文江博客话题详情

java：稀疏位向量

发布于 2024-09-05 06:22:46 字数 1537 浏览 14 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

恍梦境° 2024-09-12 06:22:47

TL;DR 转到这里 Java 中的高效稀疏 BitSet 实现

我知道这是一个“老”问题，但是有我偶然发现了这篇文章同样的问题。虽然答案很好，但我最终还是不满意。经过进一步挖掘，我想我已经找到了 Java 中稀疏 BitSet 问题的“明确”答案。

在本演示中，作者 Bruce Haddon 博士，讨论了他的研究人员为创建标准 Java BitSet 的高内存效率和高性能替代品所做的努力。

他的演示文稿的原始链接已失效，但我联系了 Haddon 博士，并在此处保留了代码和演示文稿：

https: //github.com/brettwooldridge/SparseBitSet

我强烈建议您阅读此演示文稿。即使您对稀疏位集不感兴趣，这也是一本令人着迷的读物，它更多的是关于解决问题的真正本质......

幻灯片：是计算机科学、软件工程还是黑客？

回复收藏 0 原文

∞琼窗梦回ˉ 2024-09-12 06:22:47

如果它真的很稀疏（例如，加载量小于 1%），那么使用按位索引索引的哈希表可能会很好；您只需知道表中索引是否存在即可知道该位分别是 1 或 0。

如果密度高出几个百分点，则可以使用按位索引除以 64 进行索引的哈希表，并将包含实际位的长字存储在哈希表中。如果哈希表包含 int(N/64) 和 (V>>(N) 的值 V，则设置位 N mod 64))&1 为真。

这两个答案都假设您想要优化对位的随机访问。如果您想通过索引优化对位的顺序（或其他访问），那么您可能需要稀疏矩阵结构，根据预期密度使用相同类型的低级位向量表示。请参阅稀疏矩阵

回复收藏 0 原文

枫林﹌晚霞¤ 2024-09-12 06:22:47

colt 库具有稀疏矩阵（1D、2D 和 3D）。它还具有高效的 BitVector，每个值 1 位，而不是像 boolean[] 那样具有 8 位。

然而，稀疏矩阵不直接支持位——仅支持双精度和对象。您可以通过将位索引映射到长索引(bitIndex>>6)来包装一维稀疏双矩阵，因为每个长索引保存64位，将检索到的 double 转换为原始 long 值，并使用位操作访问检索到的 long 的位。需要做一点工作，但远不及自己实现稀疏向量。一旦您的包装器工作，您可能会避免将双精度数转换为长整型数，并使用双精度一维稀疏矩阵的可用 Colt 源代码作为起点来实现真正的稀疏长一维矩阵。

编辑：更多信息。 Colt 向量/矩阵最初不需要内存来存储，假设所有位（长整型）最初都是 0。将值设置为非零会消耗内存。将值设置回 0 会继续消耗内存，尽管零值的内存会定期回收。

如果位确实稀疏，使得每个后备长整型值仅具有一位集，则存储开销将非常低，每个实际存储位需要 64 位。但正如您提到的典型情况是 20-40% 稀疏，那么开销会低得多，如果位聚集在范围内，例如从 0-100、然后 1000-1100 和 2000-2200 的位，则可能不会浪费存储空间（值以十六进制表示。）总体而言，只有 1/16 的区域被分配给位，但集群意味着位的存储没有浪费空间。

回复收藏 0 原文

且行且努力 2024-09-12 06:22:47

您可以尝试 FastUtil 的 AVL 树形图。

回复收藏 0 原文

梦里泪两行 2024-09-12 06:22:47

聚会已经很晚了，但这个问题的 PageRank 相当高。 Roaring Bitmap 已经吃掉了很多这样的用例。

回复收藏 0 原文

爺獨霸怡葒院 2024-09-12 06:22:47

CERN COLT 广泛用于向量和矩阵计算，并且具有稀疏矩阵，但并不专门用于位向量。

http://acs.lbl.gov/软件/colt/api/cern/colt/matrix/impl/SparseObjectMatrix1D.html

回复收藏 0 原文

橘亓 2024-09-12 06:22:47

一个哈希表，仅仅通过键的存在或不存在就可以告诉你一些事情？那将是一个哈希集！我对 BitSet 上的集合（甚至是散列集合）的性能持怀疑态度。这实际上取决于速度或内存是否是主要驱动因素。

回复收藏 0 原文

飘落散花 2024-09-12 06:22:47

您可以尝试 JavaEWAH 库。

https://code.google.com/p/javaewah/

根据您的问题，它可能会很合适。

（它被 Apache Hive 和其他人使用。）

回复收藏 0 原文

~没有更多了~

关于作者

时间海

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

java：稀疏位向量

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签

推荐作者

牛↙奶布丁

COSO

落叶

暗地喜欢

qq_i8qOEG

qq_Wl4Sbi

友情链接

java：稀疏位向量

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（8）

关于作者

相关话题

热门标签

推荐作者

牛↙奶布丁

COSO

落叶

暗地喜欢

qq_i8qOEG

qq_Wl4Sbi

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。