如何使用 PDFBox 在现有 PDF 页面中精确定位图像?
我可以在现有的 pdf 文档中插入图像,但问题是, 图像放置在页面底部 页面变成白色,上面显示新添加的文本。 我正在使用以下代码。 List pages = pdDo…
PdfBox PDF到图像转换linux(字符间距问题)
我正在使用 PdfBox-1.6.0.jar 执行 PDF 到 IMAGE (.png) 的转换。 我在 Windows 平台上进行开发,然后将软件作为 RESTful 服务部署到 Linux (Red Hat …
如何将 PDFBox 添加到 Android 项目或建议替代方案
我正在尝试打开现有的 pdf 文件,然后从 Android 应用程序中将另一个页面添加到 pdf 文档中。在添加的页面上,我需要添加一些文本和图像。 我想尝试一…
访问 PDF 中的字体文件
我们目前正在与一些出版商合作,从他们的 PDF 生成在线图书。我们的旧版应用程序使用 Flex,因此为此我们使用 PDF2SWF 将 PDF 转换为 SWF 文件 SWFToo…
Pdfbox PDFTextStripperByArea 坐标已移动
我遇到坐标问题。 PDFTextStripperByArea 区域似乎被推得太高。 考虑以下示例片段: ... PDPage page = (PDPage) allPages.get(0); PDFTextStripperBy…
PDFBox PDFTextStripperByArea 区域坐标
中的矩形的尺寸和方向是多少 PDFTextStripperByArea 函数addRegion(StringregionName, Rectangle2D rect) 。换句话说,矩形R从哪里开始以及它有多大(…
无法使用 PDFBox 将图像添加到 pdf
我正在编写一个 Java 应用程序,它使用 pdfbox 库从头开始创建 pdf。 我需要在其中一个页面中放置一张 jpg 图像。 我正在使用此代码: PDDocument doc…
使用 Apache Lucene 解析大型 PDF 文件
我试图找出搜索/解析一组大型 pdf 文件的最佳方法。我目前正在使用 PDFBox 将 PDF 文件转换为文本文件。然后我使用 Lucene 来索引这些文本文件并搜索…
在 Solr 中解析 PDF 的 Tika/PDFBox 的替代方案(1.4 之后的任何版本)
似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否有其他替代方法可以使用 Apache Tika(我相信它内部使用 PDFBox)来解析 PDF 文件?使用此功能时…
如何使用PDFBOX0.8.0获取pdf嵌入字体
我的代码: FileInputStream pdfFile = new FileInputStream("C:/work/pdf2tiff/test.PDF"); PDDocument pdDocument = PDDocument.load(pdfFile, true…
在使用 PDFBox 外部 jar 来处理 PDF 文档时,出现 NoClassDefFound 异常
我正在为我的项目使用 Eclipse IDE,其中我已将“pdfbox-1.6.0.jar”添加到项目的外部 jar 中。当我编写导入此 jar 文件的 API 的代码时,Eclipse 没…
Solr ExtractingRequestHandler pdf文本提取
我在 Solr 的 pdf 文本提取方面遇到问题。 Solr 使用 Apache Tika 来提取 PDF 文件的文本,而 tika 使用 PDFBox 来提取 PDF 文件的文本。当我将 PDF …
Maven2 Eclipse 插件
我刚刚向项目添加了依赖项,以便我的 jar(特别是 pdfbox 1.6)可以看到其他 jar。右键单击 Maven 提供的项目功能添加依赖项后,我如何确保依赖项有效…