当前位置：文江博客话题详情

Lucene lucene.net full-text-search

如何索引像“aaa.bbb.ddd-fff”这样的字符串在卢塞恩？

发布于 2024-09-03 09:54:02 字数 369 浏览 5 评论 0原文

我必须索引很多包含参考号的文档，例如“aaa.bbb.ddd-fff”。结构可以更改，但它始终是一些任意数字或字符与“/”、“-”、“_”或其他分隔符的组合。

用户希望能够搜索任何子字符串（如“aaa”或“ddd”）以及“aaa.bbb”或“ddd-fff”等组合。我能想到的最好办法是创建自己的标记过滤器，该过滤器以“Lucene in action”中的同义词过滤器为模型，为每个输入吐出多个术语。就我而言，我返回“aaa.bbb”、“bbb.ddd”、“bbb.ddd-fff”以及子字符串的所有其他组合。这工作得很好，但是当我索引包含大量此类字符串的大型文档（100MB）时，我往往会出现内存不足的异常，因为我的过滤器为每个输入字符串返回多个术语。

有没有更好的方法来索引这些字符串？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

墨小沫ゞ 2024-09-10 09:54:02

我会尝试构建一个令牌过滤器：

提取由分隔符分隔的令牌，例如 aaa、bbb、ddd、fff。
将分隔符提取为单独的标记。
也许添加一个分隔符标记以防止交叉数字匹配。

对于查询，我首先尝试使用 SHOULD 术语进行布尔查询。
如果这给出了太多误报，我会将其更改为“必须”。
如果这仍然太多，我会尝试 PhraseQuery。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

初遇

文章 0 评论 0

听闻余生

文章 0 评论 0

Z_dy

文章 0 评论 0

左岸枫

文章 0 评论 0

1848719402

文章 0 评论 0

婷

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文