如何编写反汇编程序？

发布于 2024-07-22 13:38:31 字数 463 浏览 6 评论 0 原文

我有兴趣编写一个 x86 反汇编器作为一个教育项目。

我发现的唯一真正的资源是螺旋空间的，“如何编写反汇编程序”。虽然这对反汇编程序的各个组件进行了很好的高级描述，但我对一些更详细的资源感兴趣。我还快速浏览了 NASM 源代码，但这在某种程度上是值得学习的重量级内容。

我意识到这个项目的主要挑战之一是我必须处理相当大的 x86 指令集。我也对基本结构、基本反汇编器链接等感兴趣。

任何人都可以向我指出有关编写 x86 反汇编器的详细资源吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

揽清风入怀 2024-07-29 13:38:31

请参阅第 17.2 节 ="http://pdos.csail.mit.edu/6.828/2008/readings/i386/toc.htm" rel="noreferrer">80386 程序员参考手册。反汇编器实际上只是一个美化的有限状态机。反汇编的步骤为：

检查当前字节是否为指令前缀字节（F3、F2 或 F0）；如果是这样，那么您就有了 REP/REPE/REPNE/LOCK 前缀。前进到下一个字节。
检查当前字节是否是地址大小字节 (67)。如果是，则如果当前处于 32 位模式，则以 16 位模式解码指令其余部分中的地址；如果当前处于 16 位模式，则以 32 位模式解码地址
检查当前字节是否为操作数大小字节（66）。如果是，则如果当前处于 32 位模式，则以 16 位模式解码立即操作数；如果当前处于 16 位模式，则以 32 位模式解码立即操作数
检查当前字节是否为段覆盖字节 (2E、36、3E、26、64 或 65）。如果是这样，请使用相应的段寄存器来解码地址，而不是默认的段寄存器。
下一个字节是操作码。如果操作码为0F，则为扩展操作码，读取下一个字节作为扩展操作码。
根据特定的操作码，读入并解码 Mod R/M 字节、比例索引基 (SIB) 字节、位移（0、1、2 或 4 字节）和/或立即值（0、1 、2 或 4 字节）。这些字段的大小取决于先前解码的操作码、地址大小覆盖和操作数大小覆盖。

操作码告诉您正在执行的操作。操作码的参数可以从 Mod R/M、SIB、位移和立即值的值进行解码。由于 x86 的复杂性，存在很多可能性和很多特殊情况。请参阅上面的链接以获得更全面的解释。

回复收藏 0 原文

[旋木] 2024-07-29 13:38:31

我建议检查一些开源反汇编程序，最好是distorm，尤其是“disOps（指令集数据库）”（ctrl +在页面上找到它）。

文档本身充满了有关操作码和指令的有趣信息。

引自 https://code.google.com/p/ distorm/wiki/x86_x64_Machine_Code

80x86 说明：

一条 80x86 指令被划分为一条
元素数量：

指令前缀，影响指令的行为
操作。

用作 SSE 指令操作码字节的强制前缀。

操作码字节，可以是一个或多个字节（最多 3 个完整字节）。

ModR/M 字节是可选的，有时可能包含
操作码本身。

SIB 字节是可选的，表示复杂的内存间接寻址
表格。

位移是可选的，它是一个不同大小的值
bytes(byte, word, long) 并用作
偏移量。

立即数是可选的，它用作构建的通用数值
来自不同大小的字节（字节，
字长）。

格式如下：

<前><代码>/-------------------------------------------------------- -------------------------------------------------- ----------------------------------------------------------\
|*前缀| *强制前缀 | *REX 前缀 | 操作码字节 | *ModR/M | *SIB | *位移（1,2 或 4 字节）| *立即数（1,2 或 4 字节）|
\------------------------------------------------- -------------------------------------------------- ----------------------------------------------------/
* 表示该元素是可选的。

https://code 中解释了数据结构和解码阶段。 google.com/p/distorm/wiki/diStorm_Internals

引用：

解码阶段

[前缀]

[获取操作码]

[过滤操作码]

[提取操作数]

[文本格式]

[十六进制转储]

[解码指令]

每个步骤也进行了解释。

由于历史原因保留原始链接：

http://code.google.com/p/ distorm/wiki/x86_x64_Machine_Code 和 http://code.google.com/p /distorm/wiki/diStorm_Internals

I would recommend checking out some open source disassemblers, preferably distorm and especially "disOps (Instructions Sets DataBase)" (ctrl+find it on the page).

The documentation itself is full of juicy information about opcodes and instructions.

Quote from https://code.google.com/p/distorm/wiki/x86_x64_Machine_Code

80x86 Instruction:

A 80x86 instruction is divided to a
number of elements:

Instruction prefixes, affects the behaviour of the instruction's
operation.

Mandatory prefix used as an opcode byte for SSE instructions.

Opcode bytes, could be one or more bytes (up to 3 whole bytes).

ModR/M byte is optional and sometimes could contain a part of the
opcode itself.

SIB byte is optional and represents complex memory indirection
forms.

Displacement is optional and it is a value of a varying size of
bytes(byte, word, long) and used as an
offset.

Immediate is optional and it is used as a general number value built
from a varying size of bytes(byte,
word, long).

The format looks as follows:
/-------------------------------------------------------------------------------------------------------------------------------------------\
|*Prefixes | *Mandatory Prefix | *REX Prefix | Opcode Bytes | *ModR/M | *SIB | *Displacement (1,2 or 4 bytes) | *Immediate (1,2 or 4 bytes) |
\-------------------------------------------------------------------------------------------------------------------------------------------/
* means the element is optional.