使用 Solr 提取 PDF 元数据时出错
我正在使用 Solr 3.3,我正在尝试从 PDF 文件中提取元数据并为其建立索引。我使用 DataImportHandler 和 TikaEntityProcessor 来添加文档。以下是我的…
如何为几种文档类型正确配置 Apache Tika?
我已经使用 Tika 一段时间了,我知道应该仅使用 Tika 外观以及代表 org/apache/tika/mime/tika-mimetypes.xml 文件的默认或自定义 TikaConfig 。 我的…
在 Solr 1.4.1 和 1.4.1 上获取 /solr/update/extract 的 404蒂卡0.4
我已成功安装 Solr 1.4.1,但无法让 Tika 0.4(包含在 contrib/extraction 中)正常工作。尝试访问 http://localhost:8080/solr/ss/ 时出现 404 错误…
Solr CEL/Tika 输出的格式是什么?以及如何修复它?
我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已启用文本存储,并检查了它。以下是示例 DOC 文件的结果: 是一家移动用户界面 (UI) 软件开发公司…
使用 Solr 为 PDF 建立索引
谁能给我指点教程。 我使用 Solr 的主要经验是索引 CSV 文件。但我找不到任何简单的说明/教程来告诉我需要做什么来索引 pdf。 我已经看到了这个: htt…
Apache Tika:解析文本文件省略了最后一部分?
我正在尝试使用 Tika 解析纯文本文件,但变得不一致 行为。 更具体地说,我定义了一个简单的处理程序,如下所示: public class MyHandler extends De…
XML 解析器 +索引数据
我需要使用 Lucene 索引一些 xml 文档,但在此之前,我需要解析这些 XML 并在其标签内提取一些信息。 XML 如下所示: Info Different words,and phras…
Solr Cell / ExtractingRequestHandler 无法解析某些 *.doc 文件
我需要索引用户上传的 doc/docx/pdf 文件的内容,并为此使用 Solr (1.4.1) ExtractingRequestHandler 组件 (817165)。如果这很重要,我不会请求从中建…
向 Apache Tika 添加语言配置文件
请任何设法做到这一点的人解释一下如何做到这一点:-) 我是否需要获取我需要添加的语言的 n-gram 文件? 是否需要创建 tika.language.override.propert…
C/C++ Apache Tika 的替代品
我正在寻找基于 Java 的 Apache Tika 框架的 C/C++ 替代方案。具体来说,我正在一个框架下搜索文件元数据和结构化文本提取。经过一些在线搜索和浏览后…
Apache Tika 和解析文档时的字符限制
有人可以帮我解决一下吗? 可以这样完成 Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); 但是如果你不直接使用Tika,就像这样: Co…
如何在网络应用程序中集成数据库搜索和 pdf 搜索?
我有一个带有自定义搜索引擎的 jsp Web 应用程序。 搜索引擎基本上构建在 SQL Server 数据库的“文档”表之上。 举例来说,每个文档记录具有三个字段…