如何配置 Apache Tika 和 Apache Solr 来索引和搜索 pdf 文件目录?

发布于 2025-01-06 08:06:17 字数 338 浏览 0 评论 0原文

如何使 Apache Tika 索引 PDF 和文本文件(包括子目录)的目录并将其提交到 Apache Solr,以便我可以拥有该目录内容的搜索引擎?

任何建议都值得赞赏,无论是在 Windows 还是 Linux 上都没关系。 我无法让它发挥作用,因为这两个项目的文档主要是面向开发人员的,这很好,但尽管如此,我无法让他们这样做,因为文档很模糊,对于非 java 人员来说不够清晰开发商。

非常简单:如何使用 Apache Lucene 系列项目构建一个搜索引擎,该项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

提前非常感谢

How can I make Apache Tika index a directory of PDF and textfiles including subdirectories and submit it to Apache Solr so that I can have a search engine for the content of this directory?

Any advice apprechiated, on Windows or Linux it doesn't matter.
I have not been able to get this to work because the documentation on these two projects are mostly geared for developers, which is fine, but nevertheless, I cannot make them do this because the documentation is vague and not clear enough for a non-java developer.

So very simply: How do I build a search engine using the Apache Lucene-family of projects that can index and provide a search for /home/material or c:/material or /cygdrive/c/material

Thanks a lot in advance

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

一指流沙 2025-01-13 08:06:17

您熟悉什么编程语言?

作为一名 Python 人员,我会熟悉 urllib2、HTTP 客户端库和可以处理文件系统的 os 模块(列出目录中的文件、打开文件用于将文件发布到 Solr 的指针)。同样相关的是 set 数据类型,它可用于比较 FS 和 Solr 索引中的文档。

因此,

  1. 学习将丰富的文档 POST 到 Solr(使用 Solr 库或 HTTP 客户端库),
  2. 使逻辑从 Solr 检索所有文档名称,并将
  3. 所有丢失/更改的文档上传到 Solr 的目录。

What programming language are you familiar with?

As a Python guy, I would gain familiarity with urllib2, a HTTP client library and the os module that can handle the filesystem (list out files in a directory, open a file pointer for POSTing in a file to Solr). Also relevant is the set data type, which can be used to compare the documents in the FS and Solr index.

So,

  1. learn to POST in rich documents to Solr (using a Solr library or a HTTP client library)
  2. make logic to retrieve all document names from Solr and the directory
  3. upload all missing/ changed documents to Solr.
半城柳色半声笛 2025-01-13 08:06:17

Solr 提供了ExtractingRequestHandler,它有助于索引丰富的文档。
页面上列出的示例使用curl 将数据提供给Solr。
一个可以迭代文件夹和子文件夹并执行curl命令的简单脚本可以在所有文档上创建索引。
如果您使用任何 Solr 客户端(例如 Solrj、rsolr),您可以轻松地遍历目录并执行 http url 来索引文档。

Solr provides ExtractingRequestHandler which helps in indexing rich documents.
The examples listing on the page uses curl to feed data to Solr.
A simple script which can iterate through the folders and subfolders and execute curl commands can create an index over all the documents.
If you are using any client for Solr like Solrj, rsolr you can easily iterate through the directory and execute the http urls to index the documents.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文