当前位置：文江博客话题详情

Lucene 编号提取

发布于 2024-07-17 14:17:02 字数 300 浏览 7 评论 0原文

我有这个号码提取问题。我想要获取所有没有特定号码的比赛例如：125501874、125001873 位置 2 处的所有数字如 55 均不予考虑。

第一个数字范围是 0 到 9，第二个数字范围是 1-9，因此实际范围是 [01-99] （我们不能将 00 作为前两个数字）

对于 Lucene，我想添加 NOT 字段：[01-99]55*

但它似乎不起作用。有没有一种简单的方法可以找到 ??55* 并在搜索中忽略它（“NOT 字段：[01-99]55*”）？

谢谢Lucene大师

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

jJeQQOZ5 2024-07-24 14:17:03

如果创建一个仅包含第三个和第四个数字的“仅索引”字段，Lucene 可以非常有效地完成此操作。完整的值可以“存储”（或者如果其他查询使用整数，则存储并索引）在原始字段中。

更新：后续评论问道：“有没有办法只在第二个数字上创建临时索引？”

使用 ParallelReader “垂直分区”索引的字段。一个分区可以保存当前索引及其字段，而另一个分区是包含新字段的临时索引，可能存储在 RAMDirectory 中。

假设该数字“存储”在原始索引中，迭代原始索引中的每个文档，检索存储的字段，解析出关键数字，并使用新的文档将 Document 添加到临时索引场地。正如 ParallelReader 文档所述，两个索引中的文档编号必须匹配。

回复收藏 0 原文

欢你一世 2024-07-24 14:17:03

谢谢埃里克森，您的解决方案可能是最好的，如果我可以使用临时索引，则使用 ParallelReader，因为我们缓存搜索查询，稍后我们将需要它们。

但正如您之前所说，最好直接从相关数字的索引开始。

我有另一个解决方案。

NOT field:0?55*
NOT field:1?55*
...
NOT field:9?55*

它对于我正在进行的搜索来说足够有效，并且它绕过了第一个字符通配符限制。如果要检查的数字更多或者距离起点更远，我不会使用它。
现在我正在一百万行上测试它，它对于我们的需求非常有效。

Thank you erickson, Your solution is probably the best, using ParallelReader if only I could use temporary indexes, cause we cache the search query, we will need those later.

But like you said before, better start with an index on the relevant digits straighaway.

I have another solution.

NOT field:0?55*
NOT field:1?55*
...
NOT field:9?55*

It is efficient enough for the search I'm doing and it bypass the first character wildcard limitation. I wouldn't use that if their where more digits to check or if they where farther from the start.
Now I'm testing this on a million of row and it's pretty efficient for our needs.

回复收藏 0 原文

~没有更多了~