使用 Solr 用页码索引 PDF

发布于 2024-09-30 17:13:47 字数 164 浏览 9 评论 0原文

我正在使用 ExtractingRequestHandler 通过 Solr 为 PDF 建立索引。我想显示页码以及文档中的点击次数,例如“在第 2、3 和 5 页的 bar.pdf 中找到了术语 foo”。

是否可以像这样在查询结果中包含页码?

I'm indexing PDFs with Solr using the ExtractingRequestHandler. I would like to display the page number along with hits in a document, e.g. "term foo was found in bar.pdf on pages 2, 3 and 5."

Is it possible to include page numbers in the query result like this?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

携君以终年 2024-10-07 17:13:47

这需要一些开发工作,但您可以通过将每个文档的每个页面索引为单独的 Solr 文档,然后使用 字段折叠对每个文档的不同页面点击进行分组。

请注意,为此您需要每晚一次,当前发布的任何 Solr 版本都未实现字段折叠。

另请注意:字段折叠是在 Solr 3.3 版本中实现的。预计下一个大版本(Solr 4.0)中会有更多更新

It would require some development effort, but you could achieve this by indexing each page of each document as a seperate Solr document, and then use field collapsing to group the different page hits for each document.

Note that you need a nightly for this, field collapsing is not implemented in any currently released Solr version.

Also note: Field Collapsing is implemented in version Solr 3.3. More updates are expected in the next big version ( Solr 4.0)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文