使用 C# 搜索 OCR(可搜索)PDF
我需要从已使用 OCR 程序转换的 PDF 中提取文本。我是否使用普通的 PDFReader 来获取文本,或者 OCR 转换后的 PDF 是否需要特殊处理?
I need to extract the text from a PDF that has already been transformed using a OCR program. Do I use a normal PDFReader to get the text or does an OCR transformed PDF require special handling?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
这取决于它是如何转变的。许多 OCR 应用程序以某种方式将文本置于图像下方。有些人通过先放置文本然后将图像放置在顶部来实现此目的。有些使用“不标记”传输模式将图像放在底部,然后将文本放在顶部。
我提到这一点是因为我无法预测任何特定的文本提取工具将如何响应透明文本。理论上,它应该只为您提供文本(这就是 Acrobat 所做的)。所有文本提取工具是否都会发生这种情况,谁也说不准。
It depends on how it has been transformed. Many OCR apps put the text under the image in some way. Some do this by laying the text down first the placing the image on top. Some place the image on the bottom then lay the text on top using the "don't mark" transfer mode.
I mention this because I can't predict how any particular text extraction tool will respond to transparent text. In theory, it should just give you the text (this is what Acrobat does). Whether this happens in reality across all text extraction tools is anyone's guess.
有许多商业 SDK 用于处理 pdf 文件。 http://www.foxitsoftware.com/pdf/sdk/activex/这是foxit的。
There are a number of commercial SDK's for handling pdf files. http://www.foxitsoftware.com/pdf/sdk/activex/ Here's foxit's.