在 SOLR 数据库中，唯一的字符串字段是否会在 RAM 中多次存储？

发布于 2024-12-11 02:31:24 字数 356 浏览 1 评论 0原文

我有一个 SOLR 数据库，需要一个新字段，其中包含类似于标签的字符串列表，只不过它们是预定义的并用于内部目的。该 SOLR 核心的搜索结果将通过公共互联网传送给第 3 方网站开发人员。因此，我想混淆标签，让别人不可能猜测出会泄露其他客户信息的标签。

我可以使用 GUID 轻松完成此任务，但我想知道 RAM 中包含数十万条记录且字段包含多个 GUID 的数组会产生什么影响。

如果 GUID 被记录为原子，即 GUID 的一份副本和对其的多次引用，那么这不是问题。但我无法确定 SOLR 或 Lucene 是否在 RAM 数据结构中使用原子。磁盘存储不是问题。

这与重复数据删除问题类似，但我的研究表明，人们最关心的是整个重复文档，而不是单个字段。

需要登录才能够评论，你可以免费注册一个本站的账号。

最初的梦 2024-12-18 02:31:24

有两种索引：

倒排索引。每个guid无论使用多少次都会被存储一次（实际上少于一次）。
指数正常。每个guid在每次使用时都会被存储一次。如果您愿意，可以在此处使用压缩。（“压缩”可能意味着您有一个特殊的表来转换数字 <-> 标签，因此每个标签都存储为数字 --> 每个标签占用 1 个字节 [假设少于 2^8 个标签]。）

~没有更多了~