如何使用 apache Solr 1.4.1 配置 Apache Tika
我想索引大量 pdf 文档。 我找到了一个参考资料,表明可以使用 Apache Tika 来完成此操作,但不幸的是,我找不到任何描述我可以在 Solr 1.4.1 中配置 …
SOLR Tika:将文件文本添加到现有记录(ExtractingRequestHandler)
我正在使用“名称”、“标题”和“描述”字段对 SOLR 中的帖子进行索引。我希望以后能够使用 Tika / ExtractingRequestHandler 添加文件(例如 Word …
Solr 的 TikaEntityProcessor 不工作
我正在尝试让 Solr 索引一个数据库,其中一列是我想要索引的 PDF 文档的文件名。我的配置如下所示: 我正在使用 trunk 中的 Solr(截至上周)。导入过…
索尔;这意味着什么?
在位于 solr 下的示例目录中的 README.txt 文件的末尾,我找到了这一行: 注意:此 Solr 示例服务器引用服务器外部的 SolrCell jar solrconfig.xml 中…
如何在 SOLR 中索引文档?
我在 Ubuntu 10.04 上运行 Solr 1.4(通过 apt-get solr-tomcat 安装),它似乎工作正常。不过,我很难找到有关如何索引文档的任何连贯信息。我是 SOL…
Solr ExtractingRequestHandler 为 pdf 文档提供空内容
我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并为其建立索引。它适用于所有 Microsoft 文档,但对于 PDF,提取的内容为空。我还尝试了…