当前位置：文江博客话题详情

从二进制文件中的结构中解析内容

发布于 2024-09-03 06:19:20 字数 704 浏览 6 评论 0原文

使用 C#，我需要读取使用 FORTRAN 创建的打包二进制文件。该文件以“未格式化的顺序”格式存储，如下所述（大约在“未格式化的顺序文件”部分的页面中间）：

http://www.tacc.utexas.edu/services/userguides/intel8/fc/f_ug1/pggfmsp.htm

作为您可以从 URL 中看到，该文件被组织成 130 字节或更少的“块”，并且每个块周围包含 2 个长度字节（由 FORTRAN 编译器插入）。

因此，我需要找到一种有效的方法来解析实际文件负载，使其脱离编译器插入的格式。

从文件中提取实际有效负载后，我需要将其解析为不同的数据类型。这将是下一个练习。

我的第一个想法是使用 File.ReadAllBytes 将整个文件放入字节数组中。然后，只需迭代字节，跳过格式化并将实际数据传输到第二个字节数组。

最后，第二个字节数组应该包含实际的文件内容减去所有格式，然后我需要返回以获得我需要的内容。

由于我对 C# 相当陌生，我认为可能有一种更好、更容易接受的方法来解决这个问题。

另外，如果有帮助的话，这些文件可能相当大（比如 30MB），尽管大多数文件会小得多......

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

吹梦到西洲 2024-09-10 06:19:20

读取此类文件的一种方法是逐条记录（例如，读取长度字节，然后读取数据块，构建记录列表，这些记录只是字节数组）。然后记录的集合被传递到进一步的解析例程。

但是，如果您使用的是 4.0，则有一个用于文件映射的新类，它会更高效，但工作方式与ReadAllBytes类似。

如果您使用的是 ReadAllBytes 或 MemoryMappedFile，最好先解析所有记录长度，在大型二进制文件中构建内存“索引”。如果您只需要某些记录，这尤其有用。

回复收藏 0 原文

怪我闹别瞎闹 2024-09-10 06:19:20

不要遍历字节，而是查看 System.IO.BinaryReader。将文件作为 FileStream 打开，将其包装在 BinaryReader 中，然后您可以直接从中读取原始类型，同时流指针会跟踪您在 Blob 中的偏移量。您可能必须自己考虑字节顺序和自定义类型，也许可以在读取单个字节的方法之上为 BinaryReader 构建自己的扩展方法。

如果您确实需要字节数组中的数据，并且首先将数组包装在 MemoryStream 中，则仍然可以使用 BinaryReader。

对于这么大的文件，我会避开 File.ReadAllBytes。 FileStream 应该为您缓冲，斯蒂芬关于使用内存映射文件的建议听起来像是一个更复杂（可能更有效）的替代方案，特别是如果您需要进行第二次格式化。