检测 zip 文件中的二进制文件和字符编码

发布于 2024-08-07 06:24:04 字数 212 浏览 9 评论 0原文

当从未知来源读取 zip 文件(使用 Java ZipInputStream 或任何其他库)时,是否有任何方法可以检测哪些条目是“字符数据”(如果是编码)或“二进制数据”。而且,如果是二进制的,任何确定更多信息(MIME 类型等)的方式

编辑 ByteOrderMark (BOM) 是否出现在 zipentries 中,如果是这样,我们必须对其进行特殊操作。

When reading zipfiles (using Java ZipInputStream or any other library) from an unknown source is there any way of detecting which entries are "character data" (and if so the encoding) or "binary data". And, if binary, any way of determining any more information (MIME types, etc.)

EDIT does the ByteOrderMark (BOM) occur in zipentries and if so do we have to make special operations for it.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

星軌x 2024-08-14 06:24:04

它基本上可以归结为确定文件内容的启发式方法。例如,对于文本文件(ASCII),应该可以通过检查文件中使用的字节值的范围来做出相当好的猜测——尽管这永远不会完全万无一失。

您应该尝试限制要识别的文件类型的类别,例如,区分“文本数据”和“二进制数据”是否足够?如果是这样,您应该能够获得相当高的检测成功率。

对于 UNIX 系统,总是有 file 命令 尝试根据文件类型来识别关于(主要)内容。

It basically boils down to heuristics for determining the contents of files. For instance, for text files (ASCII) it should be possible to make a fairly good guess by checking the range of byte values used in the file -- although this will never be completely fool-proof.

You should try to limit the classes of file types you want to identify, e.g. is it enough to discern between "text data" and "binary data" ? If so you should be able to get a fairly high success rate for detection.

For UNIX systems, there is always the file command which tries to identify file types based on (mostly) content.

墨离汐 2024-08-14 06:24:04

也许实现一个能够应用 /usr/share/file/magic 中定义的规则的 Java 组件。我很想拥有这样的东西。 (您基本上必须能够查看前 x 几个字节。)

Maybe implement a Java component that is capable of applying the rules defined in /usr/share/file/magic. I would love to have something like that. (You would basically have to be able to look at the first x couple of bytes.)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文