让 ExtractingRequestHandler 在 Solr 中工作
我正在尝试让 Solr 与 Tika 一起工作,以便我可以在我的 Drupal 网站中索引 Word 和 PDF 文档。
我查看了 Wiki 页面 和这个 page ,它们指示在 solrconfig.xml 中添加 requestHandler。
我这样做了,现在 Solr 抛出了一个异常:
org.apache.solr.common.SolrException:加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错
我做了一些搜索,发现其他人也遇到了这个问题,但没有简单的解决办法。我在 Windows Server 2003 上使用 Solr 3.4.0。关于如何解决这个问题有什么想法吗?
附带说明一下,我已经使用 Solr 进行 Drupal 搜索,而且效果很好。但我无法工作的是让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的常见需求,但我已经花了几天时间在这上面,我不敢相信它的记录如此之少且难以弄清楚。
I am attempting to get Solr to work with Tika so I can index Word and PDF documents in my Drupal web site.
I've looked at the Wiki page and this page and they indicate adding a requestHandler in solrconfig.xml.
I did that and now Solr throws an exception:
org.apache.solr.common.SolrException: Error loading class 'org.apache.solr.handler.extraction.ExtractingRequestHandler'
I have did some searches and see that others have had this problem but see no easy fix. I'm using Solr 3.4.0 on Windows Server 2003. Any ideas about how to resolve this?
As a side note I've got Drupal using Solr for searching and that is working. But what I cannot get working is to have Solr index PDF and Word documents. I'm sure this is a common need for most web sites but I have spent days on this and I cannot believe it is this poorly documented and this hard to figure out.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果您使用 jetty 设置从示例目录运行 Solr,它应该按原样运行,无需任何更改。
但是,对于多核设置,您需要将 jar 复制到 lib 目录中。
如果您检查示例文件夹中的 solrconfig,它包含 solr 单元和提取库的 jar。
solrconfig.xml -
取消注释此行以包含所有 lib jar -
将这些文件夹中的 jar 复制到多核 lib 文件夹。
这些罐子用于提取。 (Apache pdfbox、poi、fontbox 等)
启动 Solr 时,您应该看到所有已加载的 jar。
应该让你工作。
If you are running Solr from the example directory with the jetty setup, it should run as is without any changes.
However, for multicore setup you would need to copy the jars into the lib directory.
If you check the solrconfig in the example folders, it includes the jars for solr cell and extraction libraries.
solrconfig.xml -
Uncomment this line to include all the lib jars -
Copy the jars from these folders to your multicore lib folder.
These jars for used for extraction. (Apache pdfbox, poi, fontbox etc)
When you start Solr, you should see all the jars loaded.
Should get you working.