使用 C# 搜索 OCR(可搜索)PDF

发布于 2024-10-18 03:05:30 字数 85 浏览 4 评论 0原文

我需要从已使用 OCR 程序转换的 PDF 中提取文本。我是否使用普通的 PDFReader 来获取文本,或者 OCR 转换后的 PDF 是否需要特殊处理?

I need to extract the text from a PDF that has already been transformed using a OCR program. Do I use a normal PDFReader to get the text or does an OCR transformed PDF require special handling?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

沉默的熊 2024-10-25 03:05:30

这取决于它是如何转变的。许多 OCR 应用程序以某种方式将文本置于图像下方。有些人通过先放置文本然后将图像放置在顶部来实现此目的。有些使用“不标记”传输模式将图像放在底部,然后将文本放在顶部。

我提到这一点是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上,它应该只为您提供文本(这就是 Acrobat 所做的)。所有文本提取工具是否都会发生这种情况,谁也说不准。

It depends on how it has been transformed. Many OCR apps put the text under the image in some way. Some do this by laying the text down first the placing the image on top. Some place the image on the bottom then lay the text on top using the "don't mark" transfer mode.

I mention this because I can't predict how any particular text extraction tool will respond to transparent text. In theory, it should just give you the text (this is what Acrobat does). Whether this happens in reality across all text extraction tools is anyone's guess.

后来的我们 2024-10-25 03:05:30

有许多商业 SDK 用于处理 pdf 文件。 http://www.foxitsoftware.com/pdf/sdk/activex/这是foxit的。

There are a number of commercial SDK's for handling pdf files. http://www.foxitsoftware.com/pdf/sdk/activex/ Here's foxit's.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文