当前位置：文江博客话题详情

逆索引二进制格式

发布于 2024-09-26 06:22:50 字数 678 浏览 1 评论 0原文

我想弄清楚什么样的二进制文件可以支持我对反向索引的需求。假设我有一个可以用唯一 ID 识别的文档，每个文档可以有 0-65535 范围内的 360 个固定值。像这样的东西：

Document0: [1, 10, 123, ...] // 360 个值

Document1: [1, 10, 345, ...] // 360 个值

现在，反向索引很容易 - 我可以为每个值创建包含文档的可能值列表，并且可以快速执行查询，例如：

1: [Document0, Document1]

10: [Document0, Document1]

123: [Document0]

345: [Document1]

但我想存储大量文档在某种文件（二进制）中，并且能够快速查询，而且还可以添加新文档而无需重新创建整个结构。

现在我正在努力如何组织该文件。如果我想快速访问，我需要固定长度的文档数组来进行文件查找和读取。但固定大小意味着我将有很多空白空间用于文档列表。我唯一的想法是拥有某种存储桶系统，每个值都可以属于特定大小的存储桶，例如，有大小为 1, 2, 4, 8, 16, 32, ...（或类似的东西）的存储桶我需要某种标头来指出存储桶的起始位置和存储桶的大小。这个想法将优化商店规模，但我再次遇到添加新文档的问题。

知道如何组织我的“反向索引”文件吗？

最好的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

演多会厌 2024-10-03 06:22:50

我会选择 65536 个文件，每个文件都有文档 ID。如果您想对文件系统温和一些，请将其分为 256 个目录，每个目录有 256 个文件。

00\00.idx
00\01.idx
..
FF\FF.idx

I would go for 65536 files each having ID's of the documents. If you want to go gentle on the filesystem, divide that into 256 directories having 256 files each.