在 Solr 中解析 PDF 的 Tika/PDFBox 的替代方案(1.4 之后的任何版本)
似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否有其他替代方法可以使用 Apache Tika(我相信它内部使用 PDFBox)来解析 PDF 文件?使用此功能时…
如何使用PDFBOX0.8.0获取pdf嵌入字体
我的代码: FileInputStream pdfFile = new FileInputStream("C:/work/pdf2tiff/test.PDF"); PDDocument pdDocument = PDDocument.load(pdfFile, true…
在使用 PDFBox 外部 jar 来处理 PDF 文档时,出现 NoClassDefFound 异常
我正在为我的项目使用 Eclipse IDE,其中我已将“pdfbox-1.6.0.jar”添加到项目的外部 jar 中。当我编写导入此 jar 文件的 API 的代码时,Eclipse 没…
Solr ExtractingRequestHandler pdf文本提取
我在 Solr 的 pdf 文本提取方面遇到问题。 Solr 使用 Apache Tika 来提取 PDF 文件的文本,而 tika 使用 PDFBox 来提取 PDF 文件的文本。当我将 PDF …
Maven2 Eclipse 插件
我刚刚向项目添加了依赖项,以便我的 jar(特别是 pdfbox 1.6)可以看到其他 jar。右键单击 Maven 提供的项目功能添加依赖项后,我如何确保依赖项有效…
LucenePDFDocument 是否已从 pdfbox 中消失?
我正在升级项目中的库,并将 pdfbox 从 0.6.7 升级到版本 1.6.0,但找不到 LucenePDFDocument 类。 Apache 页面上的文档/教程中仍然提到了该类。有什…
PDFBox 在单词中添加空格
当我尝试从 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格。 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本): …
用pdfbox分割pdf,但丢失字体
我使用 pdfbox API 用 Java 编写了一些代码,将 pdf 文档拆分为单独的页面,在页面中查找特定字符串,然后从包含该字符串的页面创建一个新的 pdf…
如何使用 PDFBox drawString 插入换行符
我必须制作一个带有表格的 PDF。到目前为止它工作正常,但现在我想添加一个包装功能。所以我需要插入换行符。 contentStream.beginText(); contentStr…
线程“main”中的异常java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory
我正在java中使用pdfbox将pdf转换为图像。但是当我编译时我收到了消息 线程“main”中出现异常 java.lang.NoClassDefFoundError: org/apache/commons…
解析二进制文件时出错
将 PDFBOX 版本升级到 1.6.0 后,我尝试使用 Apache Tika 解析 pdf 文件...并且我开始在少数 pdf 文件中收到此错误。 有什么建议吗? java.io.IOExcep…
Java - pdfbox无法导入jar?
大家好,请有人帮我解决这个简单问题,我相信...我已经在 java 聊天网站上询问了超过 8 位专家,但似乎没有人可以帮助我:(。 我已经从以下位置下载了 …