当前位置：文江博客话题详情

PDF Hash image compare fax

比较两个作为数字化传真的 PDF 文档

发布于 2024-08-13 05:51:21 字数 576 浏览 9 评论 0原文

在我在这里发帖之前，我在板上环顾了相当多的地方，但我没有看到任何符合我希望做的事情的东西。

我们收到大量传入传真（每天 500 多页）作为单独的文档（每天大约 100 多份文档）。通常，发送者（作为医院）会在第一次尝试后几个小时重新发送同一份文件。我想将第二个发送标记为“潜在克隆”，以便可以适当地路由和标记它。

我想知道如何在每个到达的传真 (PDF/TIFF) 上计算和标记某种哈希或 ID，然后快速在我们的文档数据库中进行扫描以查看它是否唯一。

显然，如果不100%确定就没有办法，但我突然想到，如果满足以下条件，一份传真将与另一份传真相同：

相同的页数
在原始
哈希码的 24 小时内发送哈希码相似（在阈值）

但我在图像比较方面有点陷入困境。我正在寻找阈值哈希代码或某种方式来表示“每个传真 p4 上的图像 95% 可能是相同的”。例如，原始传真的 p4 可能是倾斜的，但重新发送的传真的 p4 是直的。我正在考虑首先通过 Inlite Research 的 ClearImage Repair 等工具运行所有传真页面，以拉直、旋转和校准所有页面。

有人做过这样的事吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

白馒头 2024-08-20 05:51:21

困难在于，如果发送的第二份传真是新扫描的结果，这两个文件将具有不同的哈希值。

测量文档之间的相似性（似是而非的重复）可能需要对它们进行 OCR，或者以其他方式比较（如果是模糊方式）它们的图像内容（即解压缩后）。

编辑：对用于重复检测的哈希代码的建议

非常初步地，文档的以下属性可以组合在一些易于提供良好指示似是而非的重复的哈希值中：

应该获取这些属性对于每个单独的页面，原因是页面是明确的限制，因此通过对这些限制进行“严格”处理，我们可以允许在页面内容中进行更柔和（更模糊）的测量。
并非以下所有属性都是必需的。这些通常按照从容易获得到需要更多编程的顺序列出。

PDF 级别的对象特征
（对于每一页！）
- 大小，即八位字节数
- 尺寸（宽度和高度；即使使用相同的“字母”格式，实际扫描结果也会产生不同的图像尺寸
OCR 文本
图像特征（黑/白比例，...

）关于“哈希”，它应该尽可能宽，理想情况下是通过附加 32 位或 64 位哈希（每页一个）制成的可变长度哈希。

回复收藏 0 原文

Smile简单爱 2024-08-20 05:51:21

如果 OCR 不可行，您可以采用基于图像的方法。一种可能性是对传真图像进行下采样/过滤（以去除高频噪声），然后计算两个下采样图像的像素之间的归一化相关性。显然，还有更可靠的方法，但这可能足以标记两份传真以供手动检查。特别是如果您提到的图像修复软件可以自动定向和缩放每个页面。

回复收藏 0 原文

瑶笙 2024-08-20 05:51:21

如果文档主要是文本，对它们进行 OCR 是个好主意。比较文本很简单。

我想，可以进行“距离”计算，但是如果第二次传真发送颠倒了怎么办？或者他们放大了它以使其更清晰？

我会尝试处理您可能遇到的文档子集，而不是应用通用算法。你会得到更好的结果，因为它不会寻找阳光下的一切。

回复收藏 0 原文

蒲公英的约定 2024-08-20 05:51:21

我认为 OpenCV 库就是您正在寻找的。如果我没记错的话它有图像相似度工具。通过地标识别和频域技术。可以在频域中进行近似散列，而不会因为图像中的微小差异而遇到太多麻烦。

回复收藏 0 原文

~没有更多了~

关于作者

暖树树初阳…

暂无简介

文章

评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

知足的幸福

文章 0 评论 0

我一向站在原地

文章 0 评论 0

慕烟庭风

文章 0 评论 0

秉忠贞之诚守退让之实

文章 0 评论 0

小兔几

文章 0 评论 0

mb_3y7WUgWY

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文