让 ExtractingRequestHandler 在 Solr 中工作

发布于 2024-12-12 17:25:40 字数 771 浏览 1 评论 0原文

我正在尝试让 Solr 与 Tika 一起工作,以便我可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我查看了 Wiki 页面 和这个 page ,它们指示在 solrconfig.xml 中添加 requestHandler。

我这样做了,现在 Solr 抛出了一个异常:

org.apache.solr.common.SolrException:加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错

我做了一些搜索,发现其他人也遇到了这个问题,但没有简单的解决办法。我在 Windows Server 2003 上使用 Solr 3.4.0。关于如何解决这个问题有什么想法吗?

附带说明一下,我已经使用 Solr 进行 Drupal 搜索,而且效果很好。但我无法工作的是让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的常见需求,但我已经花了几天时间在这上面,我不敢相信它的记录如此之少且难以弄清楚。

I am attempting to get Solr to work with Tika so I can index Word and PDF documents in my Drupal web site.

I've looked at the Wiki page and this page and they indicate adding a requestHandler in solrconfig.xml.

I did that and now Solr throws an exception:

org.apache.solr.common.SolrException: Error loading class 'org.apache.solr.handler.extraction.ExtractingRequestHandler'

I have did some searches and see that others have had this problem but see no easy fix. I'm using Solr 3.4.0 on Windows Server 2003. Any ideas about how to resolve this?

As a side note I've got Drupal using Solr for searching and that is working. But what I cannot get working is to have Solr index PDF and Word documents. I'm sure this is a common need for most web sites but I have spent days on this and I cannot believe it is this poorly documented and this hard to figure out.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

空气里的味道 2024-12-19 17:25:40

如果您使用 jetty 设置从示例目录运行 Solr,它应该按原样运行,无需任何更改。

但是,对于多核设置,您需要将 jar 复制到 lib 目录中

如果您检查示例文件夹中的 solrconfig,它包含 solr 单元和提取库的 jar。

solrconfig.xml -

取消注释此行以包含所有 lib jar -

<lib dir="./lib" />

将这些文件夹中的 jar 复制到多核 lib 文件夹。
这些罐子用于提取。 (Apache pdfbox、poi、fontbox 等)

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

启动 Solr 时,您应该看到所有已加载的 jar。
应该让你工作。

If you are running Solr from the example directory with the jetty setup, it should run as is without any changes.

However, for multicore setup you would need to copy the jars into the lib directory.

If you check the solrconfig in the example folders, it includes the jars for solr cell and extraction libraries.

solrconfig.xml -

Uncomment this line to include all the lib jars -

<lib dir="./lib" />

Copy the jars from these folders to your multicore lib folder.
These jars for used for extraction. (Apache pdfbox, poi, fontbox etc)

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

When you start Solr, you should see all the jars loaded.
Should get you working.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文