Solrnet/Solr(Lucene)中如何实现分组？

发布于 2024-09-13 23:51:31 字数 690 浏览 10 评论 0原文

我有根据 pageIds (UniqueKey) 索引的 Lucene 文件。一个文档可以有多个页面。现在，一旦用户执行一些搜索，它就会为我们提供与搜索条件匹配的页面。

我正在使用 Lucene.Net 2.9.2

我们有 2 个问题...

1- 文件大小约为 800GB，有 1.3 亿行（页），因此搜索时间非常慢（所有查询都花费超过一分钟（我们一次只需要返回有限的行）

为了克服性能问题，我转向了 SOLR，它解决了性能问题（这很奇怪，因为我没有使用 SOLR 提供的任何额外功能，如分片等 - 所以可能是 Lucene .NET 2.9.2 与相同版本的 JAVA 相比，性能并不真正相同？？）但现在我遇到了另一个问题...

2- 单个“lucene 文档”是一页，但我想显示“按分组”分组的结果'“真实文档”。我应该返回多少结果应该基于“真实文档”而不是“页面”进行配置（因为这就是我想要向用户显示的方式）

。其中符合搜索条件的所有页面（如果一个文档有 100 页而另一个只有 1 页，这并不重要），

我从 SOLR 论坛得到的是，它可以通过 SOLR-236 补丁（字段折叠）来实现，但我有无法通过 trunk 正确应用补丁（产生很多错误）。

这对我来说真的很重要，我没有太多时间，所以有人可以向我发送应用了此补丁的 SOLR 1.4.1 二进制文件，或者指导我（如果有其他方法）。

我真的很感激。谢谢！！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绝不服输 2024-09-20 23:51:31

如果您对崩溃补丁有问题，那么 Solr 问题跟踪器是报告这些问题的渠道。我可以看到其他人目前遇到了一些问题，所以我建议参与其开发。

也就是说：我建议，如果您的应用程序需要搜索“真实文档”，则围绕这些“真实文档”而不是它们的各个页面构建索引。

回复收藏 0 原文

习惯那些不曾习惯的习惯 2024-09-20 23:51:31

如果您唯一的要求是显示页码，我建议使用荧光笔或进行一些自定义开发。您可以将每个页面的开头和结尾的字数存储在自定义结构中，并且知道匹配的字在整个文档中的位置就可以知道它出现在哪个页面。如果文档非常大，您将获得良好的性能提升。

回复收藏 0 原文

意中人 2024-09-20 23:51:31

您还可以看看 SOLR-1682 : Implement CollapseComponent，我还没有测试过还没有，但据我所知它也解决了崩溃问题。

回复收藏 0 原文

~没有更多了~

关于作者

甜柠檬

暂无简介

0 文章

0 评论

19202 人气

关注发私信

友情链接

文江博客

Solrnet/Solr(Lucene)中如何实现分组？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

Solrnet/Solr(Lucene)中如何实现分组？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。