PDFBox 在单词中添加空格
当我尝试从 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格。 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本): …
使用 solr 的提取功能时如何将数据添加到动态字段?
我正在使用名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库来与我的 Solr 服务器交互。我可以从文档中提取数据,存储它…
从 Rails 应用程序(Word、PDF、Excel 等)搜索附件
我在 Stack Overflow 上发表的第一篇文章,请温柔一点!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,该引…
解析二进制文件时出错...(主要是 PDF)
我正在尝试使用 Apache Tika 通过对二进制文件使用 ByteArrayInputStream 来解析 pdf 文件...并且开始出现某些 pdf 文件的错误,并且对于某些文件来说…
尝试覆盖 Apache Tika 0.9 从 PDFBOX 1.4.0 到 PDFBOX 1.6.0 的依赖关系
org.apache.tika tika-parsers 0.9 我试图在下面添加这个依赖项,而不是在 tika 的依赖项之上,以覆盖 Tika 对 PDFBOX 1.6.0 的依赖项,但它不起作用…
解析二进制文件时出错
将 PDFBOX 版本升级到 1.6.0 后,我尝试使用 Apache Tika 解析 pdf 文件...并且我开始在少数 pdf 文件中收到此错误。 有什么建议吗? java.io.IOExcep…
使用 Apache Tika 提取元数据并存储到 HashMap 中
我正在尝试使用 apache tika 提取元数据,然后放入 HashMap 中。但是我的代码只获取键,而不是该键的值。例如。它只存储标题(作为键),但不存储其值…
如何将 Tika 集成到我的 Lucene 项目中?
我想将 Apache Tika 集成到我的 java 项目中。我需要从不同的文件格式(excel、doc、ppt 等)获取文本 经过一番阅读后,我了解到构建 tika 的唯一方法…
使用 tika 自定义 xpath 表达式
我正在尝试为 tika 构建自定义 xpath contentHandler 来识别复杂的 xpath 表达式, 通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码…
使用 Apache tika 获取 MimeType 子类型
我需要获取 iana.org MediaType 而不是 application/zip 或 application/x-tika-msoffice 等文档,例如 odt、ppt、pptx、xlsx 等。 如果您查看 mimety…
tika为包含大量表格的pdf返回错误的文本行
我正在使用 tika 从包含大量表格的 pdf 文件中提取文本。 java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf 它返回一些…
使用 Solr 提取 PDF 元数据时出错
我正在使用 Solr 3.3,我正在尝试从 PDF 文件中提取元数据并为其建立索引。我使用 DataImportHandler 和 TikaEntityProcessor 来添加文档。以下是我的…
如何为几种文档类型正确配置 Apache Tika?
我已经使用 Tika 一段时间了,我知道应该仅使用 Tika 外观以及代表 org/apache/tika/mime/tika-mimetypes.xml 文件的默认或自定义 TikaConfig 。 我的…
在 Solr 1.4.1 和 1.4.1 上获取 /solr/update/extract 的 404蒂卡0.4
我已成功安装 Solr 1.4.1,但无法让 Tika 0.4(包含在 contrib/extraction 中)正常工作。尝试访问 http://localhost:8080/solr/ss/ 时出现 404 错误…