PDF 转 tiff ImageMagick 问题

发布于 2024-11-07 17:16:36 字数 474 浏览 8 评论 0原文

我正在尝试将 pdf 转换为 tiff 图像以用于以下 OCR。我使用“-密度 300x300 -深度 8”作为参数。 第一个问题是,我从 500 KB 的 pdf 文件中得到 72 MB 的 tiff 文件。 第二个问题是生成的图像质量差,导致 OCR 失败。 在这里你可以自己看看。 Adobe acrobat reader 生成(打印)tiff 图像: 在此处输入图像描述

ImageMaggick tiff 图像: 在此处输入图像描述

差异是巨大的。 如何使用 ImageMaggick 获得与 Adob​​e 生成的图像一样好的图像? 不需要tiff,其他格式也可以。

UPD:我找到了“抗锯齿”选项。现在好多了。 但 OCR 结果仍然不如 Adob​​e 版本准确。

I'm trying to convert pdfs to tiff images for following OCR. I use "-density 300x300 -depth 8" as parameters.
The first problem is that from 500 KB pdf file i get 72 MB tiff file.
The second problem is bad quality of resulting image causing OCR failing.
Here you can see it yourself.
Adobe acrobat reader generated (printed) tiff image:
enter image description here

ImageMaggick tiff image:
enter image description here

The difference is huge.
How can i get as good as Adobe generated image using ImageMaggick?
Not tiff neccesary, other formats also will be good.

UPD: i've found 'antialias' option. Now it's much more better.
But still OCR result not so accurate as for Adobe version.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

醉态萌生 2024-11-14 17:16:36

我的建议是:使用 Ghostscript 命令行。因为 ImageMagick 无论如何都会在后台使用 Ghostscript(IM 技术术语是:Ghostscript 是某些转换的“委托”,例如 PDF->TIFF)。

下面是一个适用于多页 PDF 文件的字母大小页面的命令行:

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffg4 ^
   -r720x720 ^
   -g6120x7920 ^
    input.pdf

-g... 参数使用“设备点”控制输出页面的绝对宽度+高度...(在 6120x7920、720dpi 下,这恰好是信纸大小)。

这些 TIFF 页面...

  1. ...将是黑白的,
  2. ...将具有 720dpi 的分辨率,
  3. ...将进行 G4 压缩并且
  4. ...将比 IM 中未压缩的 300dpi 小得多命令行

您的 IM 参数 -深度 8 不适合从以后的 OCR 的 pov 中提供良好的结果,因为它会在字母周围创建灰色阴影,这对此没有帮助。

您的 OCR 结果现在应该比以前好得多。

如果您的 OCR 无法处理 TIFF G4 格式(我对此表示怀疑),那么您可以在 Ghostscript 的帮助下生成其他 TIFF 子格式。例如:

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffgray ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiff24nc ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

tiffgray 设备创建 8 位灰度输出。 tiff24nc 设备创建 8 位 RGB 颜色输出。当然,这两种类型的 TIFF 都会比 tiffg4 输出更大。

My suggestion is: use a Ghostscript commandline. Because ImageMagick uses Ghostscript anyway, in the background (the technical IM term for this is: Ghostscript is a "delegate" for some of the conversions, such as PDF->TIFF).

Here is a commandline that should work well for letter-sized pages of a multi-page PDF file:

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffg4 ^
   -r720x720 ^
   -g6120x7920 ^
    input.pdf

The -g... parameter controls the absolute width+height of the output pages using 'device points'... (and with 6120x7920 at 720dpi this happens to be letter-sized).

These TIFF pages...

  1. ...will be black+white,
  2. ...will have a resolution of 720dpi,
  3. ...will be G4-compressed and
  4. ...will be much smaller than your un-compressed 300dpi from the IM commandline

Your IM parameter of -depth 8 isn't suited to give good results from the p.o.v. of later OCR, since it will create shades of gray around letters which don't help with this.

Your OCR results should now be much better than before.

If your OCR can't handle TIFF G4 format (which I doubt), then you could generate other TIFF subformats with the help of Ghostscript. For example:

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffgray ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

.

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiff24nc ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

The tiffgray device creates 8-bit gray output. The tiff24nc device creates 8-bit RGB color output. Both types of TIFF will of course be bigger than the tiffg4 output.

任性一次 2024-11-14 17:16:36

对于欧洲纸张格式 A4 和 unix/linux 使用:

gs -o output.tif -sDEVICE=tiffg4 -r720x720 -sPAPERSIZE=a4 input.pdf 

For european paper format A4 and unix/linux use:

gs -o output.tif -sDEVICE=tiffg4 -r720x720 -sPAPERSIZE=a4 input.pdf 
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文