如何将外部 OCR 嵌入到现有 PDF 中？

发布于 2024-08-06 23:17:28 字数 558 浏览 4 评论 0原文

我有一组图像，在其上运行 OCR 应用程序。此过程会生成带有字符偏移量的 XML 文件。然后我使用 Acrobat 9 将图像转换为 PDF。现在，我想将 XML 文件信息作为不可见的文本层添加到 PDF 中，以实现可搜索的 PDF。有没有简单又免费的方法呢？

一些详细信息：

我不想使用 Acrobat 的 OCR 功能；
OCR 过程会生成一个 XML 文件，其中包含以下元素：
这是来自图像的文本示例行

更新：可能可以以不同的方式执行我想要的操作。假设已经有一个由一组图像生成的 PDF 文件，并且其中已经包含 OCRed 文本。是否可以（也许以编程方式）仅访问每个页面的图像，对其进行处理（例如，将其转换为单色），然后将其保存回 PDF 文件？如果是，则 ORed 文本不会丢失。

[我应该将此更新放入一个单独的问题中吗？]

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浸婚纱 2024-08-13 23:17:28

对于您关于处理 PDF 文件而不丢失隐藏层的后续问题：我相信 Ghostscript 能够做到这一点。例如，以下命令应将 PDF 转换为灰度：

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

For your follow-up question about processing PDF files without losing the the hidden layers: I believe Ghostscript is able to do this. For example, the following command should convert a PDF to grayscale:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

回复收藏 0 原文

与君绝 2024-08-13 23:17:28

如果您只想将现有的 pdf 转换为灰度，请尝试 Imagemagick：

convert foo.pdf -colorspace Gray -compress zip gray.pdf

我认为这不会更改 pdf 中的任何其他属性。

If all you want to do is convert an existing pdf to grayscale, try Imagemagick:

convert foo.pdf -colorspace Gray -compress zip gray.pdf

I don't think this will change any other attributes in your pdf.

回复收藏 0 原文

~没有更多了~

关于作者

因为看清所以看轻

暂无简介

0 文章

0 评论

671 人气

关注发私信

友情链接

文江博客

如何将外部 OCR 嵌入到现有 PDF 中？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如何将外部 OCR 嵌入到现有 PDF 中？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。