文件比较策略

发布于 2024-08-26 17:04:02 字数 358 浏览 10 评论 0原文

我正在寻找可用于以编程方式查找可能彼此重复的文件的策略。具体来说，在这种情况下，视频。

我并不是在寻找完全匹配的对象（就像在彩虹和阳光的土地上一样好）。我只是想收集内容可能相同的视频对，以便人们可以比较它们以进行确认。例如，相同的内容，不同的分辨率。

到目前为止我所采取的策略：

散列
比较文件大小
比较视频长度
比较文件名
持续保留结果以“记住”以前的重复项
上面的混合和匹配策略

您知道上面列出的策略有什么策略或改进吗？

有谁知道有任何散列函数可以产生散列范围以表明整体内容“接近”。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暗恋未遂 2024-09-02 17:04:02

为了进行有效的多向比较，您需要将视频缩小到一个小的参数空间（“指纹”），该空间具有与视频相似性良好相关的相似性度量。例如，散列并不是一个好的参数空间，因为输入视频的微小差异会导致散列的巨大差异。另一方面，视频长度不是一个好的参数，因为不同的视频可以具有相同的长度。

一个好的参数空间取决于你想忽略什么样的差异，以及放大什么样的差异。一种可行的选择是将视频在时间维度上划分为 10 秒间隔，在空间维度上划分为 16 个矩形。然后取 10 秒间隔内每个矩形的平均颜色。然后使用参数向量之间的欧氏距离作为相似性度量。（即对于每个时间间隔、每个方块、每个颜色通道，减去两个强度，取平方并将其全部加在一起）如果您需要检测可能是其他剪辑的一小部分的剪辑，那就有点棘手了，但计算特征向量的一般原理应该可行。例如，场景变化检测应该有助于创建视频长度不变参数。

回复收藏 0 原文