如何配置 Apache Tika 和 Apache Solr 来索引和搜索 pdf 文件目录?
如何使 Apache Tika 索引 PDF 和文本文件(包括子目录)的目录并将其提交到 Apache Solr,以便我可以拥有该目录内容的搜索引擎?
任何建议都值得赞赏,无论是在 Windows 还是 Linux 上都没关系。 我无法让它发挥作用,因为这两个项目的文档主要是面向开发人员的,这很好,但尽管如此,我无法让他们这样做,因为文档很模糊,对于非 java 人员来说不够清晰开发商。
非常简单:如何使用 Apache Lucene 系列项目构建一个搜索引擎,该项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索
提前非常感谢
How can I make Apache Tika index a directory of PDF and textfiles including subdirectories and submit it to Apache Solr so that I can have a search engine for the content of this directory?
Any advice apprechiated, on Windows or Linux it doesn't matter.
I have not been able to get this to work because the documentation on these two projects are mostly geared for developers, which is fine, but nevertheless, I cannot make them do this because the documentation is vague and not clear enough for a non-java developer.
So very simply: How do I build a search engine using the Apache Lucene-family of projects that can index and provide a search for /home/material or c:/material or /cygdrive/c/material
Thanks a lot in advance
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您熟悉什么编程语言?
作为一名 Python 人员,我会熟悉 urllib2、HTTP 客户端库和可以处理文件系统的 os 模块(列出目录中的文件、打开文件用于将文件发布到 Solr 的指针)。同样相关的是
set
数据类型,它可用于比较 FS 和 Solr 索引中的文档。因此,
What programming language are you familiar with?
As a Python guy, I would gain familiarity with
urllib2
, a HTTP client library and theos
module that can handle the filesystem (list out files in a directory, open a file pointer for POSTing in a file to Solr). Also relevant is theset
data type, which can be used to compare the documents in the FS and Solr index.So,
Solr 提供了ExtractingRequestHandler,它有助于索引丰富的文档。
页面上列出的示例使用curl 将数据提供给Solr。
一个可以迭代文件夹和子文件夹并执行curl命令的简单脚本可以在所有文档上创建索引。
如果您使用任何 Solr 客户端(例如 Solrj、rsolr),您可以轻松地遍历目录并执行 http url 来索引文档。
Solr provides ExtractingRequestHandler which helps in indexing rich documents.
The examples listing on the page uses curl to feed data to Solr.
A simple script which can iterate through the folders and subfolders and execute curl commands can create an index over all the documents.
If you are using any client for Solr like Solrj, rsolr you can easily iterate through the directory and execute the http urls to index the documents.