当前位置：文江博客话题详情

search design-patterns file c++ c

使用 C 或 C++ 在大型二进制文件中查找模式？

发布于 2024-10-18 06:32:08 字数 373 浏览 2 评论 0原文

我有一个约 700 MB 的二进制文件（非文本数据）；我想做的是搜索整个文件中随机位置出现的特定字节模式。例如<代码>0x？ 0x？ 0x55 0x？ 0x？ 0x55 0x？ 0x？ 0x55 0x？ 0x？ 0x55 等等，依次为 50 个左右字节。我要搜索的模式是两个随机字节的序列，每两个字节出现 0x55。

即，以0x55为分隔符搜索文件中存储的表，然后保存表中包含的数据或进行其他操作。

最好的选择是一次简单地检查每个单独的字节，然后向前查看两个字节以查看该值是否为 0x55，如果是，则一次又一次地向前查看以确认该位置存在表？

加载整个内容？寻找？缓冲区块，一次搜索一个字节？

使用 C 或 C++ 查看这个大文件并查找模式的最佳方法是什么？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

清音悠歌 2024-10-25 06:32:08

对于正则表达式匹配器或确定性有限自动机。这些是高性能工具，旨在满足您的要求，如果您可以使用它们，那么您在进行此类搜索时应该不会遇到太多麻烦。在 C++ 中，请考虑查看 Boost.Regex< /a> 库，它应该具有解决此问题所需的所有功能。

回复收藏 0 原文

旧夏天 2024-10-25 06:32:08

最终对我有用的是 Boyer-Moore-Horspool 算法（由 Jerry Coffin 建议）和我自己的基于表结构和存储数据的算法的混合体。

基本上，BMH 算法捕获了我正在寻找的大部分内容。显而易见的东西。

但有些表格确实有奇怪的格式，我必须实现一个半智能搜索，它会查看每个 0x55 后面的数据，并弄清楚它是否可能是是好的数据，或者只是随机的垃圾。

奇怪的是，我最终用 PHP 而不是 C++ 实现它，并将结果直接转储到 MySQL 数据库中进行查询。搜索过程只花了大约5分钟或更短的时间，而且结果基本上不错。我确实得到了很多垃圾数据，但它捕获了我需要的所有数据，并且（据我所知）没有留下任何好的数据。

回复收藏 0 原文

岁月流歌 2024-10-25 06:32:08

加载整个内容？寻找？缓冲区块，一次搜索一个字节？

如果您可以将整个内容加载到内存中，那么您可能应该使用平台提供的内存映射功能。这样，操作系统可以决定是否应将文件的大部分保留在物理内存中（即系统当前有大量空闲 RAM），或者是否应仅以较小的块工作。

当然，只有当您可以将文件放入工作集中时，这才有效。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

玍銹的英雄夢

文章 0 评论 0

我不会写诗

文章 0 评论 0

十六岁半

文章 0 评论 0

浸婚纱

文章 0 评论 0

qq_kJ6XkX

文章 0 评论 0

旧伤还要旧人安

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文