当前位置：文江博客话题详情

什么语言之于二进制，就像 Perl 之于文本？

发布于 2024-07-24 13:07:35 字数 238 浏览 7 评论 0 原文

我正在寻找一种脚本（或更高级别的编程）语言（或例如Python或类似语言的模块）来轻松分析和操作文件中的二进制数据（例如核心转储），就像Perl允许非常顺利地操作文本文件一样。

我想做的事情包括以各种形式（二进制、十进制、十六进制）呈现任意数据块，将数据从一种字节顺序转换为另一种字节顺序等。也就是说，您通常会使用 C 或汇编来完成这些操作，但我寻找一种语言，可以快速地为高度特定的一次性目的编写小段代码。

有什么建议么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

终难愈 2024-07-31 13:07:36

看看 python bitstring，它看起来正是你想要的:)

回复收藏 0 原文

很酷不放纵 2024-07-31 13:07:36

Python bitstring 模块是为此目的而写的。它允许您获取二进制数据的任意切片，并通过 Python 属性提供多种不同的解释。它还提供了大量用于构建和修改二进制数据的工具。

例如：

>>> from bitstring import BitArray, ConstBitStream
>>> s = BitArray('0x00cf')                           # 16 bits long
>>> print(s.hex, s.bin, s.int)                       # Some different views
00cf 0000000011001111 207
>>> s[2:5] = '0b001100001'                           # slice assignment
>>> s.replace('0b110', '0x345')                      # find and replace
2                                                    # 2 replacements made
>>> s.prepend([1])                                   # Add 1 bit to the start
>>> s.byteswap()                                     # Byte reversal
>>> ordinary_string = s.bytes                        # Back to Python string

在位串中也有按位读取和导航的函数，就像在文件中一样；事实上，这可以直接从文件中完成，无需将其读入内存：

>>> s = ConstBitStream(filename='somefile.ext')
>>> hex_code, a, b = s.readlist('hex:32, uint:7, uint:13')
>>> s.find('0x0001')         # Seek to next occurence, if found
True

还有具有不同字节序的视图以及交换字节序的能力等等 - 看看手册。

The Python bitstring module was written for this purpose. It lets you take arbitary slices of binary data and offers a number of different interpretations through Python properties. It also gives plenty of tools for constructing and modifying binary data.

For example:

>>> from bitstring import BitArray, ConstBitStream
>>> s = BitArray('0x00cf')                           # 16 bits long
>>> print(s.hex, s.bin, s.int)                       # Some different views
00cf 0000000011001111 207
>>> s[2:5] = '0b001100001'                           # slice assignment
>>> s.replace('0b110', '0x345')                      # find and replace
2                                                    # 2 replacements made
>>> s.prepend([1])                                   # Add 1 bit to the start
>>> s.byteswap()                                     # Byte reversal
>>> ordinary_string = s.bytes                        # Back to Python string

There are also functions for bit-wise reading and navigation in the bitstring, much like in files; in fact this can be done straight from a file without reading it into memory:

>>> s = ConstBitStream(filename='somefile.ext')
>>> hex_code, a, b = s.readlist('hex:32, uint:7, uint:13')
>>> s.find('0x0001')         # Seek to next occurence, if found
True

There are also views with different endiannesses as well as the ability to swap endianness and much more - take a look at the manual.

回复收藏 0 原文

原野 2024-07-31 13:07:36

我一直使用 010 Editor 查看二进制文件。
它特别适合处理二进制文件。

它有一种易于使用的类似 C 的脚本语言来解析二进制文件并以非常可读的方式呈现它们（作为树、按颜色编码的字段等）。
有一些解析 zip 文件和 bmp 文件的示例脚本。

每当我创建二进制文件格式时，我总是为 010 编辑器编写一个小脚本来查看文件。如果您有一些带有某些结构的头文件，那么为二进制文件创建一个读取器只需几分钟的时间。

回复收藏 0 原文

紫﹏色ふ单纯 2024-07-31 13:07:36

任何具有打包/解包功能的高级编程语言都可以。 Perl、Python 和 Ruby 3 个都可以做到。这是个人喜好的问题。我在每一个中都编写了一些二进制解析，并认为 Ruby 对于这项任务来说是最简单/最优雅的。

回复收藏 0 原文

与之呼应 2024-07-31 13:07:36

为什么不使用 C 解释器呢？我总是使用它们来试验片段，但您可以使用它们来编写您所描述的脚本，而不需要太多麻烦。

我一直喜欢EiC。它已经死了，但该项目最近又复活了。 EiC 的能力令人惊讶，而且速度相当快。还有CINT。两者都可以针对不同的平台进行编译，尽管我认为 CINT 在 Windows 上需要 Cygwin。

回复收藏 0 原文

追风人 2024-07-31 13:07:36

Python 的标准库有一些你需要的东西——特别是 array 模块让您轻松读取二进制文件的部分内容、交换字节顺序等； struct 模块允许对二进制字符串进行更细粒度的解释。但是，两者都没有您所需要的那么丰富：例如，要以字节或半字形式呈现相同的数据，您需要在两个数组之间复制它（numpy第三方插件对于以几种不同的方式解释相同的内存区域来说更加强大），并且，例如，要以十六进制显示一些字节，没有什么太多的“捆绑”超越简单的循环或列表理解，例如 [hex(b) for b in thebytes[start:stop]]。我怀疑有可重用的第三方模块可以进一步促进此类任务，但我无法向您指出其中一个......

回复收藏 0 原文

眉目亦如画i 2024-07-31 13:07:36

Forth 在这方面也很擅长，但有点神秘。

回复收藏 0 原文

病毒体 2024-07-31 13:07:36

好吧，如果速度不是考虑因素，并且您需要 Perl，那么将二进制的每一行转换为一行字符 - 0 和 1。是的，我知道二进制中没有换行:)，但大概你有一些固定的大小——例如按字节或其他单位，用它们你可以分解二进制 blob。

然后只需对该数据使用 perl 字符串处理:)

回复收藏 0 原文

说不完的你爱 2024-07-31 13:07:36

如果您正在进行二进制级别处理，那么它的级别非常低，并且可能需要非常高效并且具有最少的依赖项/安装要求。

所以我会选择 C - 可以很好地处理字节 - 你可能可以在 google 上搜索一些处理字节的库包。

使用像 Erlang 这样的东西会带来低效率、依赖性和其他你可能不希望使用低级库的包袱。

回复收藏 0 原文

滥情哥ㄟ 2024-07-31 13:07:35

我想做的事情包括以各种形式（二进制、十进制、十六进制）呈现任意数据块，将数据从一种字节顺序转换为另一种字节顺序等。也就是说，您通常会使用 C 或汇编来完成这些事情，但是我正在寻找一种语言，它允许非常快速地为高度特定的一次性目的编写小段代码。

好吧，虽然这看起来可能违反直觉，但我发现 erlang 非常适合于此，即由于其强大的支持对于模式匹配，甚至对于字节和位（称为“Erlang 位语法")。这使得创建非常高级的程序来处理字节甚至位级别的数据检查和操作变得非常容易：

自 2001 年以来，函数式语言 Erlang 附带了面向字节的数据类型（称为二进制）以及在二进制上进行模式匹配的结构。

并引用informIT.com：

(Erlang) 模式匹配真的开始变得简单
与二进制文件结合使用很有趣
类型。考虑一个应用程序
从网络接收数据包并
然后处理它们。中的四个字节
数据包可能是网络字节顺序
数据包类型标识符。在 Erlang 中，你
只需要一个 processPacket
可以将其转换为的函数
内部数据结构
加工。它看起来会有些东西
像这样：

processPacket(<<1:32/big,RestOfPacket>>) ->
    % Process type one packets
    ...
;
processPacket(<<2:32/big,RestOfPacket>>) ->
    % Process type two packets
    ...

因此，erlang 内置了对模式匹配的支持，并且它是一种函数式语言，因此具有很强的表现力，例如，请参阅 erlang 中 ueencode 的实现：

uuencode(BitStr) ->
<< (X+32):8 || <<X:6>> <= BitStr >>.
uudecode(Text) ->
<< (X-32):6 || <<X:8>> <= Text >>.

有关介绍，请参阅 Erlang 中的位级二进制文件和广义推导式。您可能还想查看以下一些指示：

用erlang解析二进制文件，里面有lamers
使用 Erlang 进行更多文件处理
同时学习 Erlang 和 Adobe Flash 格式
大型二进制数据是（不是）Erlang 的弱点
使用二进制文件和位串进行高效编程
Erlang 位语法和网络编程
erlang，网络编程语言（1）
Erlang，网络编程语言问题 2：二进制模式匹配
< a href="http://jimmenard.blogspot.com/2007/05/erlang-midi-file-readerwriter.html" rel="noreferrer">Erlang MIDI 文件读取器/写入器
Erlang 位语法
理解字节顺序
玩转 Erlang
Erlang：模式匹配声明与 Case 语句/其他
使用 Erlang 二进制文件的流库
Erlang 中的位级二进制文件和广义推导式
Erlang 中比特流编程的应用、实现和性能评估

Things I want to do include presenting arbitrary chunks of the data in various forms (binary, decimal, hex), convert data from one endianess to another, etc. That is, things you normally would use C or assembly for, but I'm looking for a language which allows for writing tiny pieces of code for highly specific, one-time purposes very quickly.

Well, while it may seem counter-intuitive, I found erlang extremely well-suited for this, namely due to its powerful support for pattern matching, even for bytes and bits (called "Erlang Bit Syntax"). Which makes it very easy to create even very advanced programs that deal with inspecting and manipulating data on a byte- and even on a bit-level:

Since 2001, the functional language Erlang comes with a byte-oriented datatype (called binary) and with constructs to do pattern matching on a binary.

And to quote informIT.com:

(Erlang) Pattern matching really starts to get
fun when combined with the binary
type. Consider an application that
receives packets from a network and
then processes them. The four bytes in
a packet might be a network byte-order
packet type identifier. In Erlang, you
would just need a single processPacket
function that could convert this into
a data structure for internal
processing. It would look something
like this:

processPacket(<<1:32/big,RestOfPacket>>) ->
    % Process type one packets
    ...
;
processPacket(<<2:32/big,RestOfPacket>>) ->
    % Process type two packets
    ...

So, erlang with its built-in support for pattern matching and it being a functional language is pretty expressive, see for example the implementation of ueencode in erlang:

uuencode(BitStr) ->
<< (X+32):8 || <<X:6>> <= BitStr >>.
uudecode(Text) ->
<< (X-32):6 || <<X:8>> <= Text >>.

For an introduction, see Bitlevel Binaries and Generalized Comprehensions in Erlang.You may also want to check out some of the following pointers:

回复收藏 0 原文

分分钟 2024-07-31 13:07:35

Perl 的 pack 和解压 ?

回复收藏 0 原文

~没有更多了~

关于作者

我早已燃尽

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

什么语言之于二进制，就像 Perl 之于文本？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

什么语言之于二进制，就像 Perl 之于文本？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。