数据匹配算法

发布于 2024-10-21 14:57:40 字数 542 浏览 6 评论 0 原文

我有一个项目，正在测试一个对噪声（电磁、无线电等）非常敏感的设备。该设备根据给定的输入（音频）每秒生成 5-6 个字节的二进制数据（对于未经训练的人来说看起来像是乱码）。

根据噪声的不同，有时设备会丢失字符，有时会插入随机字符，有时是两者的倍数。

我编写了一个应用程序，使用户能够动态查看它生成的错误（与主文件相比[例如设备在理想条件下应输出的内容]）。我的算法基本上获取实时数据中的每个字节，并将其与已知主文件中相同位置的字节进行比较。如果字节不匹配，我会在当前位置的双向范围内有一个 10 个字符的窗口，我将在其中寻找附近的匹配项。如果匹配（加上一两个验证），我会在 UI 中直观地标记该位置并注册一个错误。

这种方法效果相当好，实际上，考虑到传入数据的速度，它也可以实时工作。然而，我觉得我所做的并不是最佳的，如果数据以更高的速率流动，这种方法就会崩溃。

我还可以采取其他方法吗？是否有针对此类事物的已知算法？
我多年前读到过，尽管太空中存在巨大干扰，但 NASA 的数据收集设备（例如与太空和月球/火星上的飞行器通信的设备）的数据丢失率为 0.00001%。

有什么想法吗？

原文