如何确定 .pdf 文件的内容是否已扫描

发布于 2024-08-23 10:57:07 字数 232 浏览 5 评论 0原文

因此,我有一个 .pdf 文件,我需要能够确定它是否是通过扫描为 PDF 创建的。我正在尝试确定它是否是可以显示为文本的 pdf 文件。

我有 PHP 和Zend 任我支配。 我想我也许可以使用 Zend,

$pdf->properties['Producer']

但我不是 100% 确定。

有什么方法可以确定我正在处理哪种 .pdf 文件?

So, I have a .pdf file and I need to be able to determine if it was created by being scanned into a PDF or not. I'm trying to determine if it is a pdf I can display as text or not.

I have PHP & Zend at my disposal.
I'm thinking I might be able to use Zend's

$pdf->properties['Producer']

but I'm not 100% sure.

Is there any way to be sure of what kind of .pdf file I'm dealing with?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

攒眉千度 2024-08-30 10:57:07

对我来说听起来很难。周围有大量不同的“生产者”ID,其中许多支持从任何类型的源生成 PDF,无论是扫描的、来自传真、文字处理器还是其他的。创建 PDF 文件的方法有很多种,您将永远无法追溯文件的来源。

如果您想确定是否可以将其显示为文本,为什么不尝试从中提取一些实际文本呢?如果它是扫描的(或任何其他类型的嵌入图像),它应该没有或只有很少的文本内容。但是,还有 OCR 程序可以创建扫描的 PDF,其中也包含机器可读的文本。你想如何处理这个问题?

您这样做的最终目标是什么?

Sounds difficult to me. There are tons of different "Producer" IDs around, many of which support the generation of PDFs out of any kind of source, be it scanned, coming from a Fax, a word processor or whatnot. There are so many ways to create a PDF file, you'll never be able to trace back what came from where.

If you want to determine whether you can display it as text or not, why not try to extract some actual text from it? If it's scanned (or any other kind of embedded image) it should have none or very little textual content. But then, there's OCR programs that create a scanned PDF that has machine-readable text coming along, too. How do you want to deal with that?

What is your ultimate goal with this?

请帮我爱他 2024-08-30 10:57:07

要确定 PDF 文件是否已被扫描,请使用 Adob​​e Acrobat Reader 打开它。

检查您是否可以选择文本,这表明文档未被扫描。

输入图片此处的说明

但是,如果您尝试选择文本时恢复为图形选择框,则表明文档已被扫描。

输入图片此处描述

To determine if the PDF file has been scanned, open it with Adobe Acrobat Reader.

Check if you can select text, this indicates that the document was NOT scanned.

enter image description here

However, if your attempt to select text reverts to a graphic selection box, this indicates that the document was scanned.

enter image description here

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文