保持“长” PDFBox 文本提取中的空格
我正在使用 PDFBox 从 PDF 中提取文本。 PDF有一个表格结构,非常简单,列之间的间隔也很宽, 这非常有效,除了所有类型的水平空间都会转换为单个空格…
使用 PDFBox 绘制透明线
我想在 PDFBox 中用透明线绘制线条和多边形。这是我如何绘制蓝线的一些示例代码,但我无法弄清楚如何更改颜色的 alpha 值。 PDDocument document = ne…
使用 PDPageContentStream.drawLine 时出现 pdfbox 错误
我正在使用 PDFBox 从用户输入的表单之一生成 pdf。为了绘制一条线,我使用 PDPageContentStream.drawLine 并使用 PDPageContentStream.drawString 绘…
如何防止我的 PDF 到 SVG 转换代码生成臃肿的内容?
我想将 PDF 转换为 SVG。我使用 Apache PDFBox 和 Batik 库编写了自己的 Java 程序。 PDDocument document = PDDocument.load( pdfFile ) DOMImplemen…
Apache PDFBox Java 库 - 是否有用于创建表的 API?
我正在使用 Apache PDFBox java 库来创建 PDF。有没有办法使用 pdfbox 创建数据表?如果没有这样的API来做到这一点,我需要使用drawLine等手动绘制表…
PDFBox - 使用 IKVM 构建最新版本的 .NET
我想构建最新版本的 PDFBox (http://pdfbox.apache.org/userguide /dot_net.html),用于我的 .NET 项目。 我对 Java 没有任何经验,但我正在使用此处…
.NET 项目最快的 PDF-> 文本库
我正在尝试创建一个应用程序,它基本上是我的 PDF 收藏的目录。我们谈论的是包含数万个 PDF 的 15-20GB。我还计划加入全文搜索机制。我将使用 Lucene.…
使用 PDFBox 解析 PDF 文件(尤其是表格)
我需要解析包含表格数据的 PDF 文件。我正在使用 PDFBox 提取文件文本以稍后解析结果(字符串)。问题是文本提取无法按照我对表格数据的预期工作。例…
PDFBox设置A5页面尺寸
开始使用 PDFBox PDDocument document = new PDDocument() PDPage page = new PDPage() document.addPage( page ) PDFont font = PDType1Font.HELVETI…
从 PDF 中复制和粘贴文本会产生垃圾
我正在写硕士论文——NLP系统。我有一个组件 - 提取器。 它从 PDF 文件中提取纯文本。有一些 PDF 文件无法正确提取。 Extractor(PDFBox 库)返回一个…
使用java一次读取一页pdf uploadstream
我正在尝试在 j2ee 应用程序中阅读 pdf 文档。 对于网络应用程序,我必须将 pdf 文档存储在磁盘上。 为了使搜索变得容易,我想对文档内的文本进行反向…
Java + PDFBox on Linux
I need to write a small program for a server which will use PDFBox. I'm writing under windows with NetBeans. How do I add PDFBox jar to my p…
PdfParser,我在用pdfbox 遇到这个问题
String result = null           FileInputStream is = null           PDDocumen…
pdfbox 获取图片在pdf文档中位置问题
@罪恶的花生 你好,想跟你请教个问题:         我需要读取pdf中文本和图片,并且能按照原pdf的排版输出,貌似网上…