当前位置：文江博客话题详情

使用 lucene 重新索引/从索引中删除术语

发布于 2024-11-11 16:17:26 字数 653 浏览 4 评论 0原文

我希望你能帮助我，这是我的问题：

编辑：现在我重新思考，如果有办法从索引中删除术语，无论如何它都会起作用。有办法做到这一点吗？如果有，则无需阅读问题的其余部分。谢谢！

这是我打算做的： 1 - 我必须在删除标准停用词的同时索引一些文件。 2 - 之后，我必须计算每个术语的文档频率，并删除那些 df < 的术语。 2

我是如何做的：

1 - 我使用索引编写器对文件进行索引，同时删除 std 停用词。 2 - 我计算每个术语的 df，并将其添加到停用词列表中。 3 - 然后，我使用索引编写器再次对文本进行索引，但使用新的停用词列表

实际发生的情况：

我第一次索引它按计划进行。问题是当我第二次尝试索引时。结果变得非常不可预测：

1）如果我运行程序一次，即使停用词有新词，也只会删除标准停用词。

2）如果我第二次运行该程序，则 df < 的项2 被删除。

我将索引中的术语打印两次，一次在第一次索引后，一次在第二次索引后。

当我第二次运行时，df < 的条款2 在第一次打印中出现删除（请注意，我在第二次索引时添加了 df < 2 的术语，它不应该）在第一次打印中出现删除。

也许我解释的方式有点混乱，如果有什么不明白的地方请你告诉我。

我希望你们能帮助我。非常感谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

以为你会在 2024-11-18 16:17:26

当第二次索引文档时，请确保删除文档的第一个实例，否则您将导致所有术语的 dfs 膨胀。您可以通过外部 id 字段删除文档：使用 field=idfield & 创建一个 Term value=externalId，然后使用IndexWriter的deleteDocument(Term)删除旧实例；然后添加新的。我认为没有办法明确删除术语；它们源自文档。

作为优化，您可以考虑以下事项：
1. 索引所有文档
2. 查找所有 df = 1 的项
3. 删除具有每个此类术语的所有文档，并跟踪其外部文档 ID
4. 将术语添加到停用列表中
5. 仅重新索引先前删除的文档。

当然，首先您必须仔细考虑删除这些术语的用例。
1. 为什么它们出现在索引中很重要？
2. 如果您稍后更新索引，并添加一个新文档，导致某些先前具有 df=1 的术语现在具有 df=2，会发生什么情况。您将无法对该术语建立索引，因为它已经位于停止列表中。