当前位置：文江博客话题详情

Lucene lucene.net

Lucene 索引：按帐户共享还是隔离？

发布于 2024-11-03 10:23:04 字数 395 浏览 6 评论 0原文

我正在评估 Lucene 在 SaaS 应用程序中实现全局搜索功能。

我们不希望用户看到其他帐户的内容，因此搜索将始终受到帐户的限制。

是使用一个带有账户 ID 字段的单一索引更好，还是每个账户使用一个索引更好？每种方法的优点和缺点是什么？

我担心全局索引可能会由于频繁更新而影响性能。

谢谢。

编辑

估计文档总数：500,0000
帐户数量：4000
可索引数据不会在帐户之间共享
帐户用户可能每天多次更新其可索引数据（大多数情况下不超过 100
）初始设置过程后索引数据量趋于稳定
我们需要每个文档存储 10-20 个字段

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

反目相谮 2024-11-10 10:23:04

除了常见问题（例如索引更新等）之外，这里还有一些我会考虑的事情：

lucene 返回排名结果的方式取决于一些“语料库范围”的统计数据，例如某个术语出现的文档总数对于那个领域。因此，如果客户 a 的索引统计数据不适合客户 b，除了存在安全风险之外，还会损害两个客户的相关性……如果 oscar 足够聪明，他真的可以开始反转 Bob 的文档，因为该文档的性质倒排索引： http://citeseerx.ist.psu.edu/ viewdoc/summary?doi=10.1.1.159.9682 您可能可以使用以下排名算法来解决此问题：https://issues.apache.org/jira/browse/LUCENE-2864
lucene 中的一些其他内容适用于“作为一个整体的字段”或“作为一个整体的索引”和您应该知道，如果您将索引分组在一起，则它们不能真正针对每个客户进行更改：例如 omitTF（如果您将其设置在某个字段的单个文档上，则该字段将被全面省略）、相似性（在 lucene 的任何发布版本中，您只能全面设置相似性，因此客户将无法调整排名模型）、拼写检查（您必须进行一些修改，每个客户都有自己的“过滤”）拼写检查索引），...
另一方面，如果您有很多术语，则需要相当多的 RAM，并且通过为每个客户提供自己的索引，您将需要更多内存来在 RAM 中保存术语索引，对于所有索引。但是，您可以通过调整 termIndexInterval/Divisor 等内容来稍微降低此值。

回复收藏 0 原文

丧 2024-11-10 10:23:04

如果是我，如果没有监管原因不能这样做，我会将它们全部转储到一个索引中。这就是我的“不要优化不必要的东西”的说法。

第一个问题是合法的：您是否允许共同托管和混合数据，即使数据是通过逻辑方式分隔的。这取决于您的律师、客户和服务协议。这不是技术问题。

假设您可以，那么下一个问题是其他用户之间会产生什么影响。如果用户 A 正在使用系统，而用户 B 正在导入其 100K 文档，这会影响用户 A 吗？它对用户 A 的影响是因为 Lucene 的工作方式，还是仅仅因为导入和索引文档时出现的整体系统负载。

尝试一下看看。

关键是要确保您的客户端系统不直接访问 Lucene，而是通过某种外观访问。这个外观是强制执行客户端隔离的完美位置，并且如果稍后您决定需要对索引进行分片，它也是重定向流量的好地方。

也许您需要剔除一个重度用户。或者，您向某人出售更高水平的响应时间，以保证其 SLA 等中拥有更多资源。

但现在要决定更好的路径是什么？呃，看来还早呢。

500K 文档对于 Lucene 来说并不是很多数据。只要确保您的实施具有灵活性，以便在以后发现将所有功能托管在单个实例中不可行时添加功能。我所说的“添加功能”正是指添加它。实际上不要实施基于客户端的分片。而是有一个很好的观点，即可以在以后不重做一堆管道的情况下实施它。

回复收藏 0 原文

怪我太投入 2024-11-10 10:23:04

我到处做了一些“安全修剪”索引——如果允许的话绝对是可能的。也就是说，我对具有多个客户端的 SAAS 类型的东西的总体倾向是尽可能地将客户端分开，原因如下：

a）确保编码错误不会导致数据泄漏、愤怒的客户、诉讼和其他问题.
b) 使每个客户端的定制变得更加容易——您的整个代码库不需要处理特定于客户端的 fubar 请求
c) 从第一天起就迫使您采用水平可扩展的架构——如果添加实例很容易，那么扩展就很容易，对吧？

哦，绝对要采纳威尔·哈同（Will Hartung）的建议——立面搜索，那些东西真的不应该从它的层中爬出来。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

櫻之舞

文章 0 评论 0

弥枳

文章 0 评论 0

m2429

文章 0 评论 0

寻找一个思念的角度

文章 0 评论 0

野却迷人

文章 0 评论 0

我怀念的。

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文