高效的过滤/搜索

发布于 2024-07-08 23:51:56 字数 721 浏览 12 评论 0原文

我们有一个管理内容页面的托管应用程序。每个页面可以有许多自定义字段和一些标准字段（时间戳、用户名、用户电子邮件等）。

由于可能有数百个不同的站点使用该系统——处理过滤/搜索的有效方法是什么？想象一个您想要缩小范围的网格视图。您可以过滤特定字段（用户 ID、日期），也可以输入全文搜索。

例如，“由用户 ID 10 启动的所有页面”对于 MySQL 数据库来说是一个非常快速的查询。但是像“由用户 ID 为 10 且匹配 [某些搜索查询] 的用户启动的所有页面”之类的内容会对数据库产生不良影响，因此它适合像 Lucene 这样的搜索引擎。

基本上我想知道其他大型网站是如何做这种事情的。他们是否 100% 使用搜索引擎进行所有类型的过滤？他们是否将数据库查询与搜索引擎混合在一起？

如果我们仅使用搜索引擎，则新的/更新的对象出现在搜索索引中所需的延迟时间就会出现问题。也就是说，我读到立即更新索引并分批更新并不明智。即使这意味着每 5 分钟一次，当用户查看简单的页面列表（例如搜索查询“category:5”）时，如果最近添加的页面没有立即列出，他们也会感到困惑。

我们正在使用 MySQL，并且一直在密切关注 Lucene 的搜索。还有其他我不知道的技术吗？

我的想法是提供一个简单的过滤页面，它使用 MySQL 来过滤基本字段。然后提供一个单独的全文搜索页面，该页面将显示类似于 Google 的结果。这是唯一的方法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

痴骨ら 2024-07-15 23:51:56

Solr 或grassyknoll 都提供了稍微更抽象的Lucene 接口。

那说：是的。如果您是一个主要内容驱动的网站，提供对数据的全文搜索，那么除了 LIKE 之外还有其他功能可以发挥作用。虽然 MySql 的 FULLTEXT 索引并不完美，但它可能是过渡期间可接受的占位符。

假设您创建了一个 Lucene 索引，将 Lucene Documents 链接到您的关系对象非常简单，只需在索引时向文档添加一个存储的属性（该属性可以是 url、ID、GUID 等）。然后，搜索就变成了 2相位系统：
1）向 Lucene 索引发出查询（显示标题等简单结果）
2) 通过键从关系存储中获取有关该对象的更多详细信息

由于 Documents 的实例化在 Lucene 中相对昂贵，因此您只想存储在 Lucene 索引中搜索的字段，而不是关系对象的完整克隆。

回复收藏 0 原文