将 PDF 文件中的图层提取为 HTML

发布于 2024-12-09 04:25:02 字数 427 浏览 0 评论 0原文

我有一个 PDF 文件,包含图层。

例如,在某些页面上有图表,当单击(图层)时,附加数据会显示在该图表的顶部。

现在我需要尝试从 PDF 文件中提取所有这些图层,或者准确地说,我需要该 PDF 文件中的所有数据,包括图层。 pdf 文件包含 javascript,可在适当时显示/隐藏图层。

最好的方法是什么?有没有真正适合我的意图的工具?还是我应该自己写点东西? (当然如果这是可能的话)。

编辑:

您可以在这里下载PDF文件: http://www.2shared.com/document/IutUfDfr/OR_erasmus.html

查看密码为:erasmus

I have a PDF file, containing layers.

For example, on some pages, there are graphs, with additional data displayed on top of that graph, when clicking (layers).

Now I need to try to fetch all these layers out of the PDF file, or to be precise, I need ALL the data from that PDF file, including layers. The pdf file contains javascript to show/hide the layers when appropriate.

What is the best approach? Is there any tool that actually works for my intentions? Or should I write something myself? (If this is possible ofcourse).

Edit:

Here you can download the PDF file:
http://www.2shared.com/document/IutUfDfr/OR_erasmus.html

The password for viewing is: erasmus

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

拧巴小姐 2024-12-16 04:25:02

我不知道本身是否有任何工具,但如果您找不到这些工具,您可以执行以下操作:

  • 对于您感兴趣的每个开/关层组合,遍历所有页面并收集内容流。对这些内容进行标记并删除您不想看到的内容(您需要监视以确定这一点的命令是 BDC 和 EMC)。使用剪辑的内容再次保存流(自然将结果保存在不同的文件中)。您需要一些东西来读取 PDF 对象结构并更新一些对象(有很多用于此目的的库),此外您还需要能够解析内容流。

现在您将拥有一组没有图层的 PDF 文件(可选内容),有很多工具可以渲染为 HTML 等。

注意:可选内容 <--> PDF 查看器中的层切换通常为 1:1,但该标准支持完整的 n:m 映射。我将专注于可以打开/关闭的真正可选内容块,以使事情变得简单。

I do not know if there are any tools per se but if you cannot find those you might do the following:

  • for each combination of on/off layers that you are interested in walk all pages and collect the content streams. Tokenize those and cut out the content you do not want to see (the commands you need to monitor to determine this are BDC and EMC). Save the stream again with the clipped content (naturally save the result in different files). You need something to read the PDF object structure and update some objects (there are lot's of libraries for that), plus you need tobe able to parse the content streams.

Now you will have a set of PDF files without layers (optional content) for which there are plenty tools to render to HTML etc.

Note: optional content <--> layer switches in the PDF viewer usually are 1:1 but the standard supports a full n:m mapping. I would concentrate on the real optional content blocks that can be turned on/off to keep things simple.

断桥再见 2024-12-16 04:25:02

您可以使用此工具从锁定的 pdf 中提取图像和文本

http://download .cnet.com/Able2Extract/3000-2079_4-10249654.html

我有时自己使用它,它有能力转换为 HTML

you can use this tool to extract images and text from even locked pdfs

http://download.cnet.com/Able2Extract/3000-2079_4-10249654.html

I use it myself sometimes and it has the ability to convert to HTML

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文