当前位置：文江博客话题详情

.NET binary file format

检测文件是二进制文件还是纯文本文件？

发布于 2024-09-02 21:21:28 字数 176 浏览 7 评论 0原文

如何检测文件是二进制文件还是纯文本文件？

基本上，我的 .NET 应用程序正在处理批处理文件并提取数据，但我不想处理二进制文件。

作为一种解决方案，我正在考虑分析文件的前 X 个字节，如果不可打印的字符多于可打印的字符，则它应该是二进制的。

这是正确的做法吗？这个任务有没有更好的实现方式？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

紫南 2024-09-09 21:21:39

您可以正则表达式前 X 个字节，如果所有字节都在正确的字符类。但这可能前提是您知道编码。

回复收藏 0 原文

眼泪淡了忧伤 2024-09-09 21:21:37

我认为最好的方法是从文件中获取最多前 X 个字节（X 可以是 256、512 等），计算 ASCII 文件未使用的字符数（允许的 ASCII 代码为：10 , 13, 32-126）。如果您确定剧本是用英语写的，那么任何角色都不能超出上述集合。如果您不确定语言，那么您最多可以允许 Y 个字符在集合之外（如果 X 是 512，我会选择 Y 为 8 或 10）。

如果这还不够好，您可以使用更多约束，例如：根据文件的语法，应该存在此类关键字（例如：对于批处理文件，应该有一些 echo、for、if、goto、call、退出等）

回复收藏 0 原文

爺獨霸怡葒院 2024-09-09 21:21:36

Unix 文件 命令以一种巧妙的方式做到了这一点。当然，它的作用还有很多，但您可以此处检查算法，然后构建一些专门的东西。

更新：上面的链接似乎已损坏。尝试这个。

回复收藏 0 原文

甜味超标? 2024-09-09 21:21:34

二进制到底是什么意思？《孙子兵法》对你来说是用中文二进制写的吗？日英词典怎么样？

没有真正100%的方法。

您需要使用某种启发式方法。

一些选项可能需要查看：

如果上述（尤其是文件签名和扩展名）没有帮助，那么尝试根据某些字节的存在/不存在进行猜测（就像您正在做的那样）。

注意：最好先检查扩展名/签名，因为您只需要读取几个字节/文件元数据，与实际读取整个文件相比，这会非常有效。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

avyhlj

文章 0 评论 0

廾匸

文章 0 评论 0

自演自醉

文章 0 评论 0

臧立杰

文章 0 评论 0

mb_XvqQsWhl

文章 0 评论 0

鲜血染红嫁衣

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文