到底是什么导致二进制文件“乱码”？

发布于 2024-07-07 04:21:22 字数 312 浏览 10 评论 0原文

我还没有找到这个问题的答案；也许没有。但我对此感到好奇有一段时间了。

当您在文本编辑器中查看二进制文件时，到底是什么导致它显示为“乱码”？加密文件也是如此。文件的二进制值是否尝试转换为 ASCII？是否可以将视图转换为显示原始二进制值，即显示组成文件的 1 和 0？

最后，有没有办法确定哪个程序可以正确打开数据文件？很多时候，尤其是在 Windows 中，文件是孤立的或与特定程序无关。在文本编辑器中打开它有时会告诉您它所属的位置，但大多数时候由于乱码而无法告诉您。如果扩展程序不提供任何信息，您如何确定它属于哪个程序？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心意如水 2024-07-14 04:21:22

文件的二进制值是否正在尝试转换为 ASCII？

是的，这正是发生的情况。通常，文件的二进制值还包括不可打印的 ASCII 控制字符，导致在典型的文本编辑器中显示更加奇怪。

是否可以将视图转换为显示原始二进制值，即
显示组成文件的 1 和 0？

这取决于您的编辑器。您想要的是“十六进制编辑器”，而不是普通的文本编辑器。这将向您显示文件的原始内容（通常以十六进制而不是二进制形式，因为零和一会占用大量空间并且更难以读取）。

最后，有没有办法确定哪个程序可以正确打开
数据文件？

有一个名为 "file 的 Linux 命令行程序" 它将尝试分析文件（通常寻找常见的标头模式）并告诉您它是什么类型的文件（例如文本、音频、视频或 XML 等）。我不确定是否有适用于 Windows 的等效程序。当然，这个程序的输出只是一个猜测，但是当您不知道文件的格式是什么时，它会非常有用。

回复收藏 0 原文

梦途 2024-07-14 04:21:22

二进制文件看起来是乱码，因为其中的数据是为机器读取而不是为人类设计的。可悲的是，我们中的一些人习惯于解释乱码——尽管有一些专门的工具可以帮助更好地查看数据——但大多数人不需要知道。

文件中的每个字节都被视为当前代码集中的一个字符（在 Windows 上可能是 CP1252）。例如，字节值 65 为“A”；您可以在网上轻松找到说明性示例。因此，组成二进制数据的字节将根据代码集显示 - 尽文本编辑器所能达到的最佳效果。它不会尝试转换二进制文件 - 它不知道如何转换（只有原始程序会这样做）。

至于如何检测创建该文件的程序 - 有时您可能可以做到这一点，但并不容易且可靠。在 Unix 上（或者在 Windows 上使用 Cygwin），“文件”程序可能会有所帮助。该程序查看前几个字节来尝试猜测该程序。

加密的数据应该看起来像乱码。如果它看起来不像乱码，那么它可能没有很好地加密。

回复收藏 0 原文

倚栏听风 2024-07-14 04:21:22

显示看起来很有趣，因为二进制文件可以包含不可打印的字符。由显示程序将这些字符替换为其他字符。

使用十六进制编辑器可以防止这种情况。这样的程序将文件中的每个字节显示为其十六进制值。这形成了一个很好的文件表格视图，但对于普通人来说，解读这个视图并不容易，因为我们不习惯以这种方式查看数据。

有几种方法可以找出文件可能属于哪个程序。您可以查看文件的开头，并掌握一些知识，您可能会识别文件类型。有些类型以相同的字符开头（RAR、GIF 等）。对于其他类型来说可能没那么容易。

在 Linux 中，您可以使用“file”命令来帮助您确定文件类型。可能有适用于 Windows 的程序可以执行相同的操作。

回复收藏 0 原文

不必你懂 2024-07-14 04:21:22

二进制数据通常非常随机。根据定义，尤其是加密数据。每个字节可以由 256 个字符之一表示（不考虑 Unicode）。 ASCII 仅涵盖其中 128 个字符，其中只有 94 个是实际可打印字符。在 ASCII 范围之外，您会遇到许多国际字符和奇怪的符号。其中肯定超过 128 个，因此必须指定代码页来选择一组特定的符号。

无论如何，由于二进制文件可以表示为熟悉和不熟悉的字符的非常随机的分类，因此如果您在编辑器中打开该文件，该文件将看起来像乱码。

您始终可以在十六进制编辑器中打开文件（二进制或文本文件，实际上没有区别），然后查看原始二进制数据。

无法判断哪个程序创建了特定文件。特别是，如果程序对其数据进行了加密，那么所有希望都会消失。否则，通常很容易识别某些“签名”。

回复收藏 0 原文

柠北森屋 2024-07-14 04:21:22

在标准文本编辑器（例如记事本）中查看时，二进制文件显示为乱码的原因是，当使用这些类型的应用程序常用的编码（例如 UTF-8 的 ASCII）显示时，数据在编码时会映射到字符对于显示而言，此过程的输出通常对人类来说与映射的二进制数据一样没有意义，因此您看到的乱码

如前所述，当以不同方式（例如使用十六进制编辑器）查看时，这些文件更有意义。

某些文件类型可以通过给定类型的所有文件中存在的数据来识别，例如所有可执行文件 (*.exe) 以字母 MZ 开头

回复收藏 0 原文

青瓷清茶倾城歌 2024-07-14 04:21:22

是的，写字板和记事本以及许多其他文本编辑器假定您用它打开的任何文件都是文本文件，并且会尝试显示文件中字节表示的 ASCII 字符。

十六进制编辑器用于查看和编辑二进制文件。它们通常将每个字节显示为一对十六进制数字而不是“1 和 0”，因为这样更容易阅读。

回复收藏 0 原文

轮廓§ 2024-07-14 04:21:22

除了字符编码等之外，文本编辑器对进入其中的数据很少做任何假设。因此，它会（如您所说）以 ASCII 形式读取文件数据并以这种方式显示。由于二进制数据并不总是落在字母数字范围内，因此您会得到乱码。至于显示原始二进制值，您需要一个十六进制编辑器，例如 XVI32< /a>.

二进制文件通常在使用它们的程序之外没有上下文。某些二进制格式在开头包含 4 字节魔术序列（例如，Java .class 文件以“CAFE”开头），但要在没有程序的情况下识别它们，您需要这些 4 字节序列的映射。我相信某些 Linux 发行版包含各种二进制格式的信息，并将检查文件的开头以尝试识别它。除此之外，你无能为力。

回复收藏 0 原文

~没有更多了~