将多页 PDF 转换为单页 PDF 并提取图像

发布于 2024-12-11 05:36:38 字数 282 浏览 0 评论 0原文

我有一个多页 PDF 文件,其中包含我需要解析的信息。信息和图片仅限于其自己的页面。我需要从 PDF 中提取文本和图像。

我正在使用 CentOS 和 PHP。

我的尝试:

我最初尝试使用 pdftotext 和 imagemagick 的组合。我将 PDF 转换为图像,实际上将页面分成了自己的图像。不幸的是,页面上的图像质量非常差。

我的目标:

我需要将 PDF 拆分为多个 PDF,每页一个。然后,我需要从该页面中提取尽可能最佳质量的图像。

谢谢。

I have a multi-page PDF file that has information I need to parse. The information and picture is confined to its own page. I need to extract the text and image from the PDF.

I'm using CentOS and PHP.

My attempt:

I originally tried using a combination of pdftotext and imagemagick. I converted the PDF into an image and that actually separated the pages into their own images. Unfortunately the quality of the image on the page came out very poor.

My goal:

I need to split the PDF into multiple PDFs, one per page. Then, I need to extract the image from that page with the best quality possible.

Thanks.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

断念 2024-12-18 05:36:38

当您需要从 pdf 中提取图像时, imagemagick 不适合执行此任务

,其原始尺寸(即最佳尺寸,因为任何其他分辨率都小于或大于原始尺寸),您必须使用

pdfimages

http://www.foolabs.com/xpdf/download。 html

(如果无法从源代码编译,则可以使用静态二进制文件)

语法:

pdfimages file.pdf image-root

生成的图像将具有扩展名 .ppm ,除非添加开关 -j 将 jpeg 图像作为输出

imagemagick does not fit to perform this task

when you need to extract images from a pdf, at their original size (i.e. the best, since any other resolution is or lesser or bigger than original), you must to use

pdfimages

http://www.foolabs.com/xpdf/download.html

(static binaries are available if you cannot compile from source)

syntax:

pdfimages file.pdf image-root

the image resulting will have the extension .ppm , unless you add the switch -j to have jpeg images as output

ま柒月 2024-12-18 05:36:38

pdfseparate 将多页.pdf 拆分为 1.pdf 2.pdf … + 转换 1.pdf 1.png …

pdfseparate (poppler 的一部分)将 multipage.pdf 拆分为1.pdf 2.pdf ...

pdfseparate multi-page.pdf ./single-pages/%d.pdf
  • 从 multi-page.pdf 中提取所有页面
  • 并将它们保存为单页 PDF,(页码的 %d 变量)

mogrifyImageMagick 的一部分)到以您所需的分辨率(以 DPI 为单位)将所有单页 PDF 批量转换为 PNG

mogrify ./single-pages/*.pdf -density 300 -format png

pdfseparate to split multi-page.pdf to 1.pdf 2.pdf … + convert 1.pdf 1.png …

pdfseparate (part of poppler) to split multi-page.pdf to 1.pdf 2.pdf …

pdfseparate multi-page.pdf ./single-pages/%d.pdf
  • extracts all pages from multi-page.pdf
  • and saves them as single page PDFs, (%d variable for page number)

mogrify (part of ImageMagick) to batch convert all single page PDFs to PNGs at your desired resolution (in DPI)

mogrify ./single-pages/*.pdf -density 300 -format png
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文