PDFBox 图像元数据
对于一个学校项目,我正在开发一个 PDF 图像提取器,为此我使用 PDFBox 库。 我现在面临的问题是获取元数据,到目前为止我只能从PDF本身获取元数据,而不能从PDF内部的图像获取元数据。
是否可以使用 PDFBox 从 PDF 内的所有图像获取元数据?如果是这样,有人可以给我举个例子吗? 到目前为止,我找到的所有示例都是针对 PDF 本身的元数据,而不是针对图像。
我还听说,当创建 PDF 时,它会从其中的对象中删除任何元数据,这是真的吗?
希望 stackoverflow 上的人可以帮助我。
For a school project i'm working on an image extractor for PDF's for this i'm using the PDFBox library.
The problem i'm facing now is to get the metadata, so far I only managed to get the metadata from the PDF itself but not from the images inside the PDF.
Is it possible to get the metadata from all the images inside a PDF with the PDFBox? if so could anybody refer me to an example?
Any examples i've found so far are all for the metadata of the PDF itself and not for the images.
I've also heard that when a PDF is created, it removes any metadata from the objects within, is this true?
Hopefully someone on stackoverflow can help me out.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我不同意其他人的观点,并对您的问题有一个 POC:您可以使用 pdfbox 通过以下方式:
和“帮助方法”:
注意:这是一个快速而肮脏的概念证明,而不是一个风格良好的代码。
在构建 PDF 文档之前,将图像放置在 InDesign 中时必须具有 XMP 元数据。例如,可以使用Photoshop来设置XMP-Metdadata。请注意,并非所有 IPTC/Exif/... 信息都会转换为 XMP 元数据。仅转换少量字段。
我在 JPG 和 PNG 图像上使用此方法,将其放置在使用 InDesign 构建的 PDF 中。它运行良好,我可以在制作步骤之后从准备好的 PDF(图片涂层)中获取所有图像信息。
I don't agree to the others and have a POC for your question: You can extract the XMP Metadata of images using pdfbox in the following way:
And the "Helper methods":
Note: This is a quick and dirty proof of concept and not a well-styled code.
The Images must have XMP-Metadata when placed in InDesign before building the PDF document. The XMP-Metdadata can be set by using Photoshop for example. Please be aware, that p.e. not all IPTC/Exif/... Information is converted into the XMP-Metadata. Only a small number of fields are converted.
I'm using this method on JPG and PNG images, placed in PDFs build with InDesign. It works well and I can get all image-informations after the production-steps from the ready PDFs (picture coating).