如何确定不同编码/序列化/等之间的差异？

发布于 2024-10-03 16:07:02 字数 489 浏览 7 评论 0原文

是否有各种类型的数据格式解码器，例如 Base64、ASP EventValidation 对象、XML 序列化或其他格式？我可以做一个简单的测试吗？

例如，我这里有一个字符串，它是基于 cgi 的 Web 表单的一部分，它显然是十六进制（完整大小为 5kb）： ad2004726c35e66d8b19c5177a331b24988f3cf11871084f6cc9ff808baf5cdee83f031a56dc42b65ee5309f1f1

我不知道那是什么，十六进制到ascii给了我还有一些废话，比如 Ra_d__IVo6"Odd1_1/G&?sG&OfQw1I1_eS，它显然不是一个基于 64 的字符串...

问题基本上是：除了查看不同类型并尝试之外，还有其他方法吗，并猜测

：我认为这个字符串是基于附加的 52616e646f6d4956 的加密数据，但我的问题不是这个字符串是什么，而是我如何轻松地告诉这些事情。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半世蒼涼 2024-10-10 16:07:02

您可以开发自己的启发式算法。类似于病毒扫描程序。它并不是 100% 有效，但随着时间的推移应该会有所改善。例如，您可以获取该字符串并注意它仅包含十六进制字母表中的字符，将其标记为可能被加密、压缩或与十六进制字符集相关的任何其他内容。

您可以扩展启发式方法来尝试 N 种不同的编码并执行字数统计。这可能有助于缩小编码的可能性，但在简单的情况下，例如标准英语字母表，编码表之间存在大量重叠，因此您肯定会得到误报。但是，只要重叠不包含字符的外部/不匹配，您仍然应该获得可读的内容。

正如马克指出的那样，并非所有内容都一定是可读内容。图片、zip 文件和其他数据列表在转换为编码表表示形式时将导致纯属无意义。但是，即使是这样的项目也有可能包含启发式检测到的一致数据。

这个话题可能会涉及很多。看看TCP协议就知道了。人们不只是在互联网上发送数据包，期望在客户端对数据进行一些神奇的解释。有预定义的规则（协议）来定义客户端/服务器之间传输数据的方式和类型。因此，要直接回答有关“猜测”的问题，您无法确定将收到的数据或您的解释，但您当然可以开发一个比“猜测”更智能的应用程序。

回复收藏 0 原文