如何配置 Apache Tika 和 Apache Solr 来索引和搜索 pdf 文件目录？

发布于 2025-01-06 08:06:17 字数 338 浏览 6 评论 0原文

如何使 Apache Tika 索引 PDF 和文本文件（包括子目录）的目录并将其提交到 Apache Solr，以便我可以拥有该目录内容的搜索引擎？

任何建议都值得赞赏，无论是在 Windows 还是 Linux 上都没关系。我无法让它发挥作用，因为这两个项目的文档主要是面向开发人员的，这很好，但尽管如此，我无法让他们这样做，因为文档很模糊，对于非 java 人员来说不够清晰开发商。

非常简单：如何使用 Apache Lucene 系列项目构建一个搜索引擎，该项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

提前非常感谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一指流沙 2025-01-13 08:06:17

您熟悉什么编程语言？

作为一名 Python 人员，我会熟悉 urllib2、HTTP 客户端库和可以处理文件系统的 os 模块（列出目录中的文件、打开文件用于将文件发布到 Solr 的指针）。同样相关的是 set 数据类型，它可用于比较 FS 和 Solr 索引中的文档。

因此，

学习将丰富的文档 POST 到 Solr（使用 Solr 库或 HTTP 客户端库），
使逻辑从 Solr 检索所有文档名称，并将
所有丢失/更改的文档上传到 Solr 的目录。

回复收藏 0 原文

半城柳色半声笛 2025-01-13 08:06:17

Solr 提供了ExtractingRequestHandler，它有助于索引丰富的文档。
页面上列出的示例使用curl 将数据提供给Solr。
一个可以迭代文件夹和子文件夹并执行curl命令的简单脚本可以在所有文档上创建索引。
如果您使用任何 Solr 客户端（例如 Solrj、rsolr），您可以轻松地遍历目录并执行 http url 来索引文档。

回复收藏 0 原文

~没有更多了~