PDF 转 tiff ImageMagick 问题
我正在尝试将 pdf 转换为 tiff 图像以用于以下 OCR。我使用“-密度 300x300 -深度 8”作为参数。 第一个问题是,我从 500 KB 的 pdf 文件中得到 72 MB 的 tiff 文件。 第二个问题是生成的图像质量差,导致 OCR 失败。 在这里你可以自己看看。 Adobe acrobat reader 生成(打印)tiff 图像:
ImageMaggick tiff 图像:
差异是巨大的。 如何使用 ImageMaggick 获得与 Adobe 生成的图像一样好的图像? 不需要tiff,其他格式也可以。
UPD:我找到了“抗锯齿”选项。现在好多了。 但 OCR 结果仍然不如 Adobe 版本准确。
I'm trying to convert pdfs to tiff images for following OCR. I use "-density 300x300 -depth 8" as parameters.
The first problem is that from 500 KB pdf file i get 72 MB tiff file.
The second problem is bad quality of resulting image causing OCR failing.
Here you can see it yourself.
Adobe acrobat reader generated (printed) tiff image:
ImageMaggick tiff image:
The difference is huge.
How can i get as good as Adobe generated image using ImageMaggick?
Not tiff neccesary, other formats also will be good.
UPD: i've found 'antialias' option. Now it's much more better.
But still OCR result not so accurate as for Adobe version.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我的建议是:使用 Ghostscript 命令行。因为 ImageMagick 无论如何都会在后台使用 Ghostscript(IM 技术术语是:Ghostscript 是某些转换的“委托”,例如 PDF->TIFF)。
下面是一个适用于多页 PDF 文件的字母大小页面的命令行:
-g...
参数使用“设备点”控制输出页面的绝对宽度+高度...(在 6120x7920、720dpi 下,这恰好是信纸大小)。这些 TIFF 页面...
您的 IM 参数
-深度 8
不适合从以后的 OCR 的 pov 中提供良好的结果,因为它会在字母周围创建灰色阴影,这对此没有帮助。您的 OCR 结果现在应该比以前好得多。
如果您的 OCR 无法处理 TIFF G4 格式(我对此表示怀疑),那么您可以在 Ghostscript 的帮助下生成其他 TIFF 子格式。例如:
。
tiffgray
设备创建 8 位灰度输出。tiff24nc
设备创建 8 位 RGB 颜色输出。当然,这两种类型的 TIFF 都会比tiffg4
输出更大。My suggestion is: use a Ghostscript commandline. Because ImageMagick uses Ghostscript anyway, in the background (the technical IM term for this is: Ghostscript is a "delegate" for some of the conversions, such as PDF->TIFF).
Here is a commandline that should work well for letter-sized pages of a multi-page PDF file:
The
-g...
parameter controls the absolute width+height of the output pages using 'device points'... (and with 6120x7920 at 720dpi this happens to be letter-sized).These TIFF pages...
Your IM parameter of
-depth 8
isn't suited to give good results from the p.o.v. of later OCR, since it will create shades of gray around letters which don't help with this.Your OCR results should now be much better than before.
If your OCR can't handle TIFF G4 format (which I doubt), then you could generate other TIFF subformats with the help of Ghostscript. For example:
.
The
tiffgray
device creates 8-bit gray output. Thetiff24nc
device creates 8-bit RGB color output. Both types of TIFF will of course be bigger than thetiffg4
output.对于欧洲纸张格式 A4 和 unix/linux 使用:
For european paper format A4 and unix/linux use: