使用 Solr 用页码索引 PDF
我正在使用 ExtractingRequestHandler 通过 Solr 为 PDF 建立索引。我想显示页码以及文档中的点击次数,例如“在第 2、3 和 5 页的 bar.pdf
中找到了术语 foo
”。
是否可以像这样在查询结果中包含页码?
I'm indexing PDFs with Solr using the ExtractingRequestHandler. I would like to display the page number along with hits in a document, e.g. "term foo
was found in bar.pdf
on pages 2, 3 and 5."
Is it possible to include page numbers in the query result like this?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这需要一些开发工作,但您可以通过将每个文档的每个页面索引为单独的 Solr 文档,然后使用 字段折叠对每个文档的不同页面点击进行分组。
请注意,为此您需要每晚一次,当前发布的任何 Solr 版本都未实现字段折叠。
另请注意:字段折叠是在 Solr 3.3 版本中实现的。预计下一个大版本(Solr 4.0)中会有更多更新
It would require some development effort, but you could achieve this by indexing each page of each document as a seperate Solr document, and then use field collapsing to group the different page hits for each document.
Note that you need a nightly for this, field collapsing is not implemented in any currently released Solr version.
Also note: Field Collapsing is implemented in version Solr 3.3. More updates are expected in the next big version ( Solr 4.0)