编译为 ASM 的 C 如何知道外部函数的分支到哪里?

编译为 ARM ASM 的 C 如何知道外部函数的分支位置?

例如,这是一个简单的 C 程序:

#include <stdio.h>

int main() {
   printf("Hello World!");
   return 0;

及其相应的 ARM ASM 程序:

    .arch armv6
    .eabi_attribute 28, 1
    .eabi_attribute 20, 1
    .eabi_attribute 21, 1
    .eabi_attribute 23, 3
    .eabi_attribute 24, 1
    .eabi_attribute 25, 1
    .eabi_attribute 26, 2
    .eabi_attribute 30, 6
    .eabi_attribute 34, 1
    .eabi_attribute 18, 4
    .file   "main.c"
    .section    .rodata
    .align  2
    .ascii  "Hello World!\000"
    .align  2
    .global main
    .arch armv6
    .syntax unified
    .fpu vfp
    .type   main, %function
    @ args = 0, pretend = 0, frame = 0
    @ frame_needed = 1, uses_anonymous_args = 0
    push    {fp, lr}
    add fp, sp, #4
    ldr r0, .L3
    bl  printf
    mov r3, #0
    mov r0, r3
    pop {fp, pc}
    .align  2
    .word   .LC0
    .size   main, .-main
    .ident  "GCC: (Raspbian 10.2.1-6+rpi1) 10.2.1 20210110"
    .section    .note.GNU-stack,"",%progbits


那么它链接到哪里,不仅仅是标准 C 库?

我目前在树莓派 400 上运行 Linux

还如梦归 2025-01-17 14:17:27

我的电脑有x86_64处理器,但原理是一样的。我正在使用 gcc 9.3.0。

我将您的代码复制到名为 main.c 的文件中,并使用 gcc -S main.c 将其编译为程序集。它生成了包含以下内容的文件 main.s

        .file   "main.c"
        .section        .rodata
        .string "Hello World!"
        .globl  main
        .type   main, @function
        pushq   %rbp
        .cfi_def_cfa_offset 16
        .cfi_offset 6, -16 
        movq    %rsp, %rbp
        .cfi_def_cfa_register 6
        leaq    .LC0(%rip), %rdi
        movl    $0, %eax
        call    printf@PLT
        movl    $0, %eax
        popq    %rbp
        .cfi_def_cfa 7, 8
        .size   main, .-main
        .ident  "GCC: (Ubuntu 9.3.0-17ubuntu1~20.04) 9.3.0"
        .section        .note.GNU-stack,"",@progbits
        .section        .note.gnu.property,"a"
        .align 8
        .long    1f - 0f
        .long    4f - 1f
        .long    5   
        .string  "GNU"
        .align 8
        .long    0xc0000002
        .long    3f - 2f
        .long    0x3 
        .align 8

这里有很多汇编指令,可能会导致阅读混乱,所以我将其汇编成一个目标文件(gcc -c main.s),然后运行 ​​objdump -d main.o 对其进行反汇编。这是反汇编的输出:

main.o:     file format elf64-x86-64

Disassembly of section .text:

0000000000000000 <main>:
   0:   f3 0f 1e fa             endbr64 
   4:   55                      push   %rbp
   5:   48 89 e5                mov    %rsp,%rbp
   8:   48 8d 3d 00 00 00 00    lea    0x0(%rip),%rdi        # f <main+0xf>
   f:   b8 00 00 00 00          mov    $0x0,%eax
  14:   e8 00 00 00 00          callq  19 <main+0x19>
  19:   b8 00 00 00 00          mov    $0x0,%eax
  1e:   5d                      pop    %rbp
  1f:   c3                      retq   


lea    0x0(%rip),%rdi

This 旨在将 "Hello World!" 字符串的地址加载到寄存器 %rdi 中。令人困惑的是,它似乎只是将 %rip 复制到 %rdi 中。

下一条指令将 0 放入寄存器 %eax 中。我其实不知道这是为什么,但这与本次讨论无关。

然后是对 printf 的实际调用:

callq  19 <main+0x19>


接下来的 3 条指令基本上执行最后的返回 0

要真正回答您的问题,我们需要查看的不仅仅是汇编代码。此时我建议花一些时间研究 ELF 文件的格式。我认为该主题超出了本答案的范围,但它将帮助您理解我将要向您展示的内容。

我首先想指出,在您和我的程序集中,"Hello World!" 字符串前面是该指令:

.section        .rodata

main 函数前面


是 这些指令指示

.section        .text


$ readelf -S main.o
There are 14 section headers, starting at offset 0x318:

Section Headers:
  [Nr] Name              Type             Address           Offset
       Size              EntSize          Flags  Link  Info  Align
  [ 0]                   NULL             0000000000000000  00000000
       0000000000000000  0000000000000000           0     0     0
  [ 1] .text             PROGBITS         0000000000000000  00000040
       0000000000000020  0000000000000000  AX       0     0     1
  [ 2] .rela.text        RELA             0000000000000000  00000258
       0000000000000030  0000000000000018   I      11     1     8
  [ 3] .data             PROGBITS         0000000000000000  00000060
       0000000000000000  0000000000000000  WA       0     0     1
  [ 4] .bss              NOBITS           0000000000000000  00000060
       0000000000000000  0000000000000000  WA       0     0     1
  [ 5] .rodata           PROGBITS         0000000000000000  00000060
       000000000000000d  0000000000000000   A       0     0     1
  [ 6] .comment          PROGBITS         0000000000000000  0000006d
       000000000000002b  0000000000000001  MS       0     0     1
  [ 7] .note.GNU-stack   PROGBITS         0000000000000000  00000098
       0000000000000000  0000000000000000           0     0     1
  [ 8] .note.gnu.propert NOTE             0000000000000000  00000098
       0000000000000020  0000000000000000   A       0     0     8
  [ 9] .eh_frame         PROGBITS         0000000000000000  000000b8
       0000000000000038  0000000000000000   A       0     0     8
  [10] .rela.eh_frame    RELA             0000000000000000  00000288
       0000000000000018  0000000000000018   I      11     9     8
  [11] .symtab           SYMTAB           0000000000000000  000000f0
       0000000000000138  0000000000000018          12    10     8
  [12] .strtab           STRTAB           0000000000000000  00000228
       000000000000002a  0000000000000000           0     0     1
  [13] .shstrtab         STRTAB           0000000000000000  000002a0
       0000000000000074  0000000000000000           0     0     1
Key to Flags:
  W (write), A (alloc), X (execute), M (merge), S (strings), I (info),
  L (link order), O (extra OS processing required), G (group), T (TLS),
  C (compressed), x (unknown), o (OS specific), E (exclude),
  l (large), p (processor specific)

如果您能弄清楚如何读取此输出,您将看到 .text 节是 0x20 字节大小(与上面的反汇编输出匹配),并且 .rodata 部分的大小为 0xd (13) 字节(即 strlen("Hello World!" ) 加一个空字节)。然而,你的问题的答案就在重定位数据中:

$ readelf -r main.o

Relocation section '.rela.text' at offset 0x258 contains 2 entries:
  Offset          Info           Type           Sym. Value    Sym. Name + Addend
00000000000b  000500000002 R_X86_64_PC32     0000000000000000 .rodata - 4
000000000015  000c00000004 R_X86_64_PLT32    0000000000000000 printf - 4

Relocation section '.rela.eh_frame' at offset 0x288 contains 1 entry:
  Offset          Info           Type           Sym. Value    Sym. Name + Addend
000000000020  000200000002 R_X86_64_PC32     0000000000000000 .text + 0

如果你不知道它的含义,那么这个输出读起来也很混乱。首先要理解的是,重定位节告诉链接器代码中依赖于符号的位置,或者在同一文件的其他节中,或者更常见的是在其他文件中定义的符号。例如,.rela.text 部分包含有关 .text 部分的重定位信息。当此目标文件链接到最终的可执行文件时,链接器将使用丢失的地址覆盖 .text 部分的部分内容。

因此,查看 .rela.text 下的第一个条目,我们看到偏移量为 0xb。查看反汇编代码,我们可以看到偏移量 0xb 引用了 lea 指令的 7 字节编码的第四个字节。类型 R_X86_64_PC32 告诉我们该指令需要 32 位 PC 相对地址,因此我们可以预期链接器会覆盖接下来的 4 个字节(当前均为 0)。最右边的一列以人类可读的格式告诉我们,该地址需要用 .rodata 部分的地址减去 4 填充(使用 PC 相对寻址,您必须记住 PC 将是指向下一条指令)。它忽略了重定位类型 R_X86_64_PC32 隐含的事实,即它将从中减去 .text 中字节 0xb 的最终地址。部分,这将使该指针成为指向“Hello World!”字符串数据的有效的 PC 相关指针。

同样,第二个条目告诉链接器将 printf 的地址(负 4)复制到 .text 部分中的偏移量 0x15,这将是callq指令编码的最后4个字节。在本例中,类型为 R_X86_64_PLT32,它告诉我们它指向过程链接表 (PLT) 中的条目。 PLT 用于动态链接,以便共享对象库(在本例中为 libc.so)可以一次加载到物理内存中并由许多正在运行的可执行文件共享。

请注意,这可能会回答您的一些具体问题,您的编译器会自动链接执行程序所需的所有运行时库。这包括任何标准库函数,它们是 libc.so 的一部分。没有“外部依赖性”运行的唯一方法是在裸机系统(即没有操作系统的系统)上运行。您使用的任何操作系统都必须做一些工作才能让您的程序开始 main()

