当前位置：文江博客话题详情

操作指南：使用 C# 在 OCR 之前提高 PDF 质量

发布于 2024-11-18 19:21:04 字数 576 浏览 12 评论 0原文

我正在创建一项监视文件夹中是否有扫描文件的服务。文件到达后，该服务就会拾取它，并将其转换为可读的 PDF。在此过程中，该服务还会搜索条形码。此后，文本被提取，文件及其文本被存储到我们软件的数据库中。该位置基于条形码。

现在，对于 OCR，我们使用 Atalasoft 的 SDK (http://www.atalasoft.com/) 。该 SDK 中还包含条形码识别器。

但转换后的文本仍然存在一些错误。（我用其他 OCR 程序进行了一些测试，但 Atalasoft 结果不错。）我正在寻找一些软件（SDK 套件），它可以让我提高用于 OCR 目的的 PDF 质量。

我测试了 Kofax VRS Elite (http://www.kofax.com/vrs-virtualrescan/ ）。我正在寻找类似的东西，但可以使用某种 SDK 套件在服务中实现。

有谁以前做过这个，或者遇到过类似的问题吗？提前谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

财迷小姐 2024-11-25 19:21:04

您可以尝试完全遵循不同的路径：
查看是否可以将扫描仪配置为直接扫描为 PDF 并即时执行 OCR。 Lexmark 扫描仪可以做到这一点。这将创建带有可选择和可搜索文本的 PDF。这又可以通过 PDF 阅读库提取。

或者，您可能想查看 http://www.abbyy.com/ 并看看您是否得到更好的结果。

如果这些都不是好的选择，您可能需要系统地分解您的问题：
1. 扫描图像的图像质量是否有问题？如果是这样，那么必须首先解决这个问题。您的 OCR 解决方案可能会受到分辨率、对比度和颜色的影响。
2. 是OCR软件吗？拿一份清晰易读的文档，看看 OCR 软件是否出错。如果是这样，那么您就知道必须找到更好的 OCR 软件。
3. 如果您的文档质量不错，并且您的 OCR 软件在破译清晰文档方面的成功率很高，那么您可能需要查看不起作用的例外情况，并根据具体情况进行处理。

如果文档上的污点和背景图像是问题的原因，您可能需要研究避免这种情况的方法，或者使用公开 API 的图像处理软件来清理它。

回复收藏 0 原文

~没有更多了~