将可搜索 PDF 转换为不可搜索 PDF
我有一个可搜索的 PDF,我需要将其转换为不可搜索的 PDF。
我尝试使用 Ghostscript 将其更改为 JPEG,然后再更改回 PDF,这确实有效,但文件大小太大且无法接受。
我尝试先使用 Ghostscript 将 PDF 转换为 PS,然后再将 PDF 转换为 PDF,效果也不错,但质量不够好。
gswin32.exe -q -dNOPAUSE -dBATCH -dSAFER -sDEVICE=pswrite -r1000 -sOutputFile=out.ps in.pdf
gswin32.exe -q -dNOPAUSE -dBATCH -dSAFER -dDEVICEWIDTHPOINTS=596 -dDEVICEHEIGHTPOINTS=834 -dPDFSETTINGS=/ebook -sDEVICE=pdfwrite -sOutputFile=out.pdf out.ps
有没有办法提高 PDF 的质量?
或者是否有一种更简单的方法将可搜索的 PDF 转换为不可搜索的 PDF?
I have a PDF which is searchable and I need to convert it into a non-searchable one.
I tried using Ghostscript and change it to JPEG and then back to PDF which does the trick but the file size is way too large and not acceptable.
I tried using Ghostscript to convert the PDF to PS first and then PDF which does the trick as well but the quality is not good enough.
gswin32.exe -q -dNOPAUSE -dBATCH -dSAFER -sDEVICE=pswrite -r1000 -sOutputFile=out.ps in.pdf
gswin32.exe -q -dNOPAUSE -dBATCH -dSAFER -dDEVICEWIDTHPOINTS=596 -dDEVICEHEIGHTPOINTS=834 -dPDFSETTINGS=/ebook -sDEVICE=pdfwrite -sOutputFile=out.pdf out.ps
Is there a way to give a good quality to the PDF?
Alternatively is there an easier way to convert a searchable PDF to a non-searchable one?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
您可以使用 Ghostscript 来实现这一点。您需要 2 个步骤:
将 PDF 转换为 PostScript 文件,其中所有使用的字体都转换为轮廓形状。这里的关键是
-dNOCACHE
参数:将 PS 转换回 PDF(并且可能再次删除中间 PS):
请注意,生成的 PDF 很可能比原始 PDF 更大。 (并且,如果没有额外的命令行参数,原始 PDF 中的所有图像也可能会根据 Ghostscript 内置默认值进行转换,除非您添加更多命令行参数来执行其他操作。但质量应该比您自己尝试使用 Ghostscript 更好...)
更新
显然,从版本 9.15(将于 2014 年 9 月/10 月期间发布)开始,Ghostscript 将支持新的命令行参数: >
这将导致输出设备
pdfwrite
、ps2write
和eps2write
“将字形‘展平’为‘基本’标记操作(而不是将字体写入输出)”。这意味着可以避免上述两个步骤,并且通过单个命令即可实现所需结果:
注意事项:我已经使用一些输入文件对此进行了测试基于当前 Git 源自编译的 Ghostscript。它在每种情况下都完美地工作。
You can use Ghostscript to achieve that. You need 2 steps:
Convert the PDF to a PostScript file, which has all used fonts converted to outline shapes. The key here is the
-dNOCACHE
paramenter:Convert the PS back to PDF (and, maybe delete the intermediate PS again):
Note, that the resulting PDF will very likely be larger than the original one. (And, without additional command line parameters, all images in the original PDF will likely also be converted according to Ghostscript builtin defaults, unless you add more command line parameters to do otherwise. But the quality should be better than your own attempt to use Ghostscript...)
Update
Apparently, from version 9.15 (to be released during September/October 2014), Ghostscript will support a new command line parameter:
which will cause the output devices
pdfwrite
,ps2write
andeps2write
"to 'flatten' glyphs into 'basic' marking operations (rather than writing fonts to the output)".This means that the above two steps can be avoided, and the desired result be achieved with a single command:
Caveats: I've tested this with a few input files using a self-compiled Ghostscript based on current Git sources. It worked flawlessly in each case.
从可搜索矢量 pdf 生成不可搜索矢量 pdf 的一种可能方法是
在其单页中突发 pdf
pdftk file.pdfburst
转换 svg 中的任何单个页面
pdftocairo
包含在 poppler utils
3 中。删除文件夹 4 中的所有 pdf 文件
。然后,使用 batikrasterizer
重新将 ALL svg 转换为 pdf(这次生成的 pdf 将保持矢量,但不可搜索)
最后一步:将所有生成的单页 pd 合并到一个多页 pdf 文件中
a possible way to produce non-searchable vector pdf from a searchable vector pdf is
burst pdf in its single pages
pdftk file.pdf burst
convert any single page in svg with
pdftocairo
contained into poppler utils
3 . delete ALL pdf in folder
4 . then, with batikrasterizer
re-convert ALL svg to pdf (this time the resulting pdfs will be kept vectorial, but without to be searchable)
final step: join all resulting single page pd in one multipage pdf file
我认为转换为像 jpg 这样的图像是可行的方法,可能值得转换为 am 图像,优化/减小图像的大小,然后用这些创建 PDF?
I think converting to an image like jpg is the way to go, it might be worth converting to am image, optimizing/reducing the size of the images and then creating a PDF with those?