将多页 PDF 转换为单页 PDF 并提取图像
我有一个多页 PDF 文件,其中包含我需要解析的信息。信息和图片仅限于其自己的页面。我需要从 PDF 中提取文本和图像。
我正在使用 CentOS 和 PHP。
我的尝试:
我最初尝试使用 pdftotext 和 imagemagick 的组合。我将 PDF 转换为图像,实际上将页面分成了自己的图像。不幸的是,页面上的图像质量非常差。
我的目标:
我需要将 PDF 拆分为多个 PDF,每页一个。然后,我需要从该页面中提取尽可能最佳质量的图像。
谢谢。
I have a multi-page PDF file that has information I need to parse. The information and picture is confined to its own page. I need to extract the text and image from the PDF.
I'm using CentOS and PHP.
My attempt:
I originally tried using a combination of pdftotext and imagemagick. I converted the PDF into an image and that actually separated the pages into their own images. Unfortunately the quality of the image on the page came out very poor.
My goal:
I need to split the PDF into multiple PDFs, one per page. Then, I need to extract the image from that page with the best quality possible.
Thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
当您需要从 pdf 中提取图像时, imagemagick 不适合执行此任务
,其原始尺寸(即最佳尺寸,因为任何其他分辨率都小于或大于原始尺寸),您必须使用
pdfimages
http://www.foolabs.com/xpdf/download。 html
(如果无法从源代码编译,则可以使用静态二进制文件)
语法:
生成的图像将具有扩展名 .ppm ,除非添加开关 -j 将 jpeg 图像作为输出
imagemagick does not fit to perform this task
when you need to extract images from a pdf, at their original size (i.e. the best, since any other resolution is or lesser or bigger than original), you must to use
pdfimages
http://www.foolabs.com/xpdf/download.html
(static binaries are available if you cannot compile from source)
syntax:
the image resulting will have the extension .ppm , unless you add the switch -j to have jpeg images as output
pdfseparate 将多页.pdf 拆分为 1.pdf 2.pdf … + 转换 1.pdf 1.png …
pdfseparate (poppler 的一部分)将 multipage.pdf 拆分为1.pdf 2.pdf ...
%d
变量)mogrify (ImageMagick 的一部分)到以您所需的分辨率(以 DPI 为单位)将所有单页 PDF 批量转换为 PNG
pdfseparate to split multi-page.pdf to 1.pdf 2.pdf … + convert 1.pdf 1.png …
pdfseparate (part of poppler) to split multi-page.pdf to 1.pdf 2.pdf …
%d
variable for page number)mogrify (part of ImageMagick) to batch convert all single page PDFs to PNGs at your desired resolution (in DPI)