当前位置：文江博客话题详情

PDF itext TOC 生成

发布于 2024-11-01 04:02:37 字数 182 浏览 6 评论 0原文

我必须将多个 PDF 文档合并为一个 PDF 文档。除此之外，我还必须生成目录。原始文档将包含具有特定样式的文本（例如 H1）。此特殊文本成为目录的一部分。

曾使用 iText 合并多个 PDF 文件。我无法找到示例/API 解析文档以查找具有样式 H1 的所有内容。生成 TOC 是下一个挑战。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

初雪 2024-11-08 04:02:37

你不知道。 PDF 没有样式。它们具有“当前图形状态”，其中包括：

当前变换矩阵（CTM）。
中风与填充颜色
剪切路径
字体和其他文本状态内容的大小
（字符间距、字间距、行距、文本渲染模式...）
- 包括与 CTM 结合的单独文本转换矩阵。

所以首先你必须跟踪所有这些东西（iText 主要可以为你做）。然后，您必须确定“H1”文本有多大，并锁定该尺寸屏幕尺寸中的所有文本，同时考虑 CTM、文本矩阵和字体大小（iText 会再次为您做这件事，IIRC））。

为了让像您这样的人的生活更加精彩，您正在查看的文本完全有可能根本不是文本。它可能是路径，也可能是位图……此时您需要 OCR，而且我认为您不会通过 OCR 获得太多大小信息。

您需要编写一个 TextRenderListener 来确定给定文本片段的最终大小（以及它是否是最后一段文本的一部分）并过滤掉所有太小的内容。然后，您将根据找到的文本构建目录。

回复收藏 0 原文

~没有更多了~

关于作者

半枫

暂无简介

0 文章

0 评论

24 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

PDF itext TOC 生成

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签