在没有索引的情况下查询 lucene 令牌

发布于 2024-08-07 15:36:50 字数 343 浏览 15 评论 0原文

我正在使用 Lucene（或更具体地说 Compass）来记录论坛中的线程，我需要一种方法来提取讨论背后的关键字。也就是说，我不想对某人所做的每个条目进行索引，而是有一个与特定上下文相关的“关键字”列表，如果该条目与关键字匹配并且高于阈值，我会添加将这些条目添加到索引中。

我希望能够利用分析器的强大功能来剥离内容并发挥其魔力，然后从分析器返回标记以匹配关键字，并计算某些单词被提及的出现次数。

有没有一种方法可以从分析器获取令牌，而无需为每个条目建立索引？

我想我必须维护一个 RAMDirectory 来保存所有条目，然后使用我的关键字列表执行搜索，然后将相关文档合并到持久性管理器以实际存储相关条目。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

往日情怀 2024-08-14 15:36:50

您应该能够完全跳过使用 RAMDirectory。您可以直接调用 StandardAnalyzer 并让它向您传回令牌列表（也称为关键字）。

StandardAnalyzer analyzer = new StandardAnalyzer;
TokenStream stream = analyzer.tokenStream("meaningless", new StringReader("<text>"));
while (true) {
    Token token = stream.next();
    if (token == null) break;

    System.out.println(token.termText());
}

更好的是，编写您自己的分析器（它们并不难，查看现有分析器的源代码），使用您自己的过滤器来监视关键字。

You should be able to skip using the RAMDirectory entirely. You can call the StandardAnalyzer directly and get it to pass back a list of tokens to you (aka keywords).

StandardAnalyzer analyzer = new StandardAnalyzer;
TokenStream stream = analyzer.tokenStream("meaningless", new StringReader("<text>"));
while (true) {
    Token token = stream.next();
    if (token == null) break;

    System.out.println(token.termText());
}

Better yet, write your own Analyzer (they're not hard, have a look at the source code for the existing ones) that uses your own filter to watch for your keywords.

回复收藏 0 原文