当前位置：文江博客话题详情

让 lucene 仅返回唯一的线程（对线程和帖子进行索引）

发布于 2024-08-23 00:15:20 字数 240 浏览 7 评论 0原文

我有一个类似 StackOverflow 的系统，其中内容被组织成线程，每个线程都有自己的内容（问题正文/文本）和帖子/回复。

我正在提供通过 Lucene 搜索此内容的能力，如果可能的话，我决定对各个帖子建立索引（这使得索引更容易更新，并且意味着我有更多的控制权和调整结果的能力），而不是索引整个线程。然而，我遇到的问题是我希望搜索显示线程列表，而不是帖子列表。

如何让 Lucene 仅返回唯一的线程作为结果，同时搜索帖子的内容？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

佞臣 2024-08-30 00:15:20

每个文档都可以有一个“threadId”字段。运行搜索后，您可以循环遍历结果集并返回所有唯一的 threadId。

棘手的部分是指定要返回多少结果。如果你想在你的结果页面上显示 10 个结果，你可能需要 Lucene 返回 10 + m 个结果，因为返回集的一定百分比将被重复数据删除，因为它们是属于同一个帖子线。您需要合并一些额外的逻辑，以便在重复数据删除集 <= 的情况下运行另一个 Lucene 搜索。 10.

这就是 Nutch 项目在折叠属于同一域的多个搜索结果时所做的事情。

回复收藏 0 原文