是否有任何 Lucene 荧光笔不需要原始文本 - 但可以在术语位置等上工作

发布于 2024-09-24 14:04:18 字数 170 浏览 5 评论 0原文

我一直在阅读新的第二版 Lucene in Action,他们给出了一个突出显示的例子,但不幸的是它需要原始文本,这样它才能获得术语的位置等。突出显示是 contrib 中的官方突出显示,因此这意味着它是赞助或官方荧光笔。

有谁知道另一个不需要原始文本但可以使用术语位置的荧光笔(抱歉,如果我的术语错误)???

I have been reading the new 2nd edition of the Lucene in Action and they give an example of doing highlighting but unfortunately it requires the original text so it can get the position of terms etc. The highlighter is the official one in contrib, so that implies its the sponsorted or official highlighter.

Does anyone know of another highlighter that does not require the original text but works using the term positions (sorry if i got the terminology wrong) ???

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

信仰 2024-10-01 14:04:18

如果您存储术语,标准荧光笔和 FastVectorHighlighter 都可以使用索引。 (事实上​​,FVH 只能使用索引)。您可以在《Lucene in Action》第 274 页上看到这样的示例。相关代码行是:

TokenStream stream = TokenSources.getAnyTokenStream(searcher.getIndexReader(), sd.doc, "title", doc, analyzer);

这将从索引中获取令牌流。

Both the standard highlighter and FastVectorHighlighter can use the index if you store the terms. (FVH can only use the index, in fact). You can see an example of this on page 274 of Lucene in Action. The relevant code line is:

TokenStream stream = TokenSources.getAnyTokenStream(searcher.getIndexReader(), sd.doc, "title", doc, analyzer);

That will get the token stream from the index.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文