gcc链接脚本详解.pdf

发布时间：2022-06-08 发布人：admin 分类：说明书资料大小：0.52M 资料格式：pdf 举报版权申诉

m0_38071824-11929334-4744300845393208112.pdf-第1页.png

第1页 / 共55页

m0_38071824-11929334-4744300845393208112.pdf-第2页.png

第2页 / 共55页

m0_38071824-11929334-4744300845393208112.pdf-第3页.png

第3页 / 共55页

m0_38071824-11929334-4744300845393208112.pdf-第4页.png

第4页 / 共55页

m0_38071824-11929334-4744300845393208112.pdf-第5页.png

第5页 / 共55页

m0_38071824-11929334-4744300845393208112.pdf-第6页.png

第6页 / 共55页

m0_38071824-11929334-4744300845393208112.pdf-第7页.png

第7页 / 共55页

m0_38071824-11929334-4744300845393208112.pdf-第8页.png

第8页 / 共55页

文本预览

一、概论每一个链接过程都由链接脚本(linker script, 一般以 lds 作为文件的后缀名)控制. 链接脚本主要用于规定如何把输入文件内的 section 放入输出文件内, 并控制输出文件内各部分在程序地址空间内的布局. 但你也可以用连接命令做一些其他事情. 连接器有个默认的内置连接脚本, 可用 ld –verbose 查看. 连接选项-r 和-N 可以影响默认的连接脚本(如何影响?). -T 选项用以指定自己的链接脚本, 它将代替默认的连接脚本。你也可以使用以增加自定义的链接命令. 以下没有特殊说明，连接器指的是静态连接器. 二、基本概念链接器把一个或多个输入文件合成一个输出文件. 输入文件: 目标文件或链接脚本文件. 输出文件: 目标文件或可执行文件. 目标文件(包括可执行文件)具有固定的格式, 在 UNIX 或 GNU/Linux 平台下, 一般为 ELF 格式有时把输入文件内的 section 称为输入 section(input section), 把输出文件内的 section 称为输出 section(output sectin). 目标文件的每个 section 至少包含两个信息: 名字和大小. 大部分 section 还包含与它相关联的一块数据, 称为 section contents(section 内容). 一个 section 可被标记为“loadable(可加载的)”或“allocatable(可分配的)”. loadable section: 在输出文件运行时, 相应的 section 内容将被载入进程地址空间中. allocatable section: 内容为空的 section 可被标记为“可分配的”. 在输出文件运行时, 在进程地址空间中空出大小同 section 指定大小的部分. 某些情况下, 这块内存必须被置零. 如果一个 section 不是“可加载的”或“可分配的”, 那么该 section 通常包含了调试信息. 可用 objdump -h 命令查看相关信息. 每个“可加载的”或“可分配的”输出 section 通常包含两个地址: VMA(virtual memory address 虚拟内存地址或程序地址空间地址)和 LMA(load memory address 加载内存地址或进程地址空间地址). 通常 VMA 和 LMA 是相同的. 在目标文件中, loadable 或 allocatable 的输出 section 有两种地址: VMA(virtual Memory Address)和 LMA(Load Memory Address). VMA 是执行输出文件时 section 所在的地址, 而 LMA 是加载输出文件时 section 所在的地址. 一般而言, 某 section 的 VMA == LMA. 但在嵌入式系统中, 经常存在加载地址和执行地址不同的情况: 比如将输出文件加载到开发板的 flash 中(由 LMA 指定), 而在运行时将位于 flash 中的输出文件复制到 SDRAM 中(由 VMA 指定). 可这样来理解 VMA 和 LMA, 假设: (1) .data section 对应的 VMA 地址是 0×08050000, 该 section 内包含了 3 个 32 位全局变量, i、j 和 k, 分别为 1,2,3. (2) .text section 内包含由”printf( “j=%d “, j );”程序片段产生的代码. 连接时指定.data section 的 VMA 为 0×08050000, 产生的 printf 指令是将地址为 0×08050004 处的 4 字节内容作为一个整数打印出来。如果.data section 的 LMA 为 0×08050000，显然结果是 j=2 如果.data section 的 LMA 为 0×08050004，显然结果是 j=1 还可这样理解 LMA:

.text section 内容的开始处包含如下两条指令(intel i386 指令是 10 字节，每行对应 5 字节): jmp 0×08048285 movl $0×1,%eax 如果.text section 的 LMA 为 0×08048280, 那么在进程地址空间内 0×08048280 处为“jmp 0×08048285”指令, 0×08048285 处为 movl $0×1,%eax 指令. 假设某指令跳转到地址 0×08048280, 显然它的执行将导致%eax 寄存器被赋值为 1. 如果.text section 的 LMA 为 0×08048285, 那么在进程地址空间内 0×08048285 处为“jmp 0×08048285”指令, 0×0804828a 处为 movl $0×1,%eax 指令. 假设某指令跳转到地址 0×08048285, 显然它的执行又跳转到进程地址空间内 0×08048285 处, 造成死循环. 符号(symbol): 每个目标文件都有符号表(SYMBOL TABLE), 包含已定义的符号(对应全局变量和 static 变量和定义的函数的名字)和未定义符号(未定义的函数的名字和引用但没定义的符号)信息. 符号值: 每个符号对应一个地址, 即符号值(这与 c 程序内变量的值不一样, 某种情况下可以把它看成变量的地址). 可用 nm 命令查看它们. (nm 的使用方法可参考本 blog 的 GNU binutils 笔记) 三、脚本格式链接脚本由一系列命令组成, 每个命令由一个关键字(一般在其后紧跟相关参数)或一条对符号的赋值语句组成. 命令由分号‘;’分隔开. 文件名或格式名内如果包含分号’;'或其他分隔符, 则要用引号‘”’将名字全称引用起来. 无法处理含引号的文件名. /* */之间的是注释。四、简单例子在介绍链接描述文件的命令之前, 先看看下述的简单例子: 以下脚本将输出文件的 text section 定位在 0×10000, data section 定位在 0×8000000: SECTIONS { . = 0×10000; .text : { *(.text) } . = 0×8000000; .data : { *(.data) } .bss : { *(.bss) } } 解释一下上述的例子: . = 0×10000 : 把定位器符号置为 0×10000 (若不指定, 则该符号的初始值为 0). .text : { *(.text) } : 将所有(*符号代表任意输入文件)输入文件的.text section 合并成一个.text section, 该 section 的地址由定位器符号的值指定, 即 0×10000. . = 0×8000000 ：把定位器符号置为 0×8000000 .data : { *(.data) } : 将所有输入文件的.data section 合并成一个.data section, 该 section 的地址被置为 0×8000000. .bss : { *(.bss) } : 将所有输入文件的.bss section 合并成一个.bss section，该 section 的地址被置为 0×8000000+.data section 的大小.

连接器每读完一个 section 描述后, 将定位器符号的值*增加*该 section 的大小. 注意: 此处没有考虑对齐约束. 五、简单脚本命令 ENTRY(SYMBOL) ：将符号 SYMBOL 的值设置成入口地址。入口地址(entry point)是指进程执行的第一条用户空间的指令在进程地址空间的地址 ld 有多种方法设置进程入口地址, 按一下顺序: (编号越前, 优先级越高) 1, ld 命令行的-e 选项 2, 连接脚本的 ENTRY(SYMBOL)命令 3, 如果定义了 start 符号, 使用 start 符号值 4, 如果存在.text section, 使用.text section 的第一字节的位置值 5, 使用值 0 INCLUDE filename : 包含其他名为 filename 的链接脚本相当于 c 程序内的的#include 指令, 用以包含另一个链接脚本. 脚本搜索路径由-L 选项指定. INCLUDE 指令可以嵌套使用, 最大深度为 10. 即: 文件 1 内 INCLUDE 文件 2, 文件 2 内 INCLUDE 文件 3… , 文件 10 内 INCLUDE 文件 11. 那么文件 11 内不能再出现 INCLUDE 指令了. INPUT(files): 将括号内的文件做为链接过程的输入文件 ld 首先在当前目录下寻找该文件, 如果没找到, 则在由-L 指定的搜索路径下搜索. file 可以为 -lfile 形式，就象命令行的-l 选项一样. 如果该命令出现在暗含的脚本内, 则该命令内的 file 在链接过程中的顺序由该暗含的脚本在命令行内的顺序决定. GROUP(files) : 指定需要重复搜索符号定义的多个输入文件 file 必须是库文件, 且 file 文件作为一组被 ld 重复扫描，直到不在有新的未定义的引用出现。 OUTPUT(FILENAME) : 定义输出文件的名字同 ld 的-o 选项, 不过-o 选项的优先级更高. 所以它可以用来定义默认的输出文件名. 如 a.out SEARCH_DIR(PATH) ：定义搜索路径，同 ld 的-L 选项, 不过由-L 指定的路径要比它定义的优先被搜索。 STARTUP(filename) : 指定 filename 为第一个输入文件在链接过程中, 每个输入文件是有顺序的. 此命令设置文件 filename 为第一个输入文件。 OUTPUT_FORMAT(BFDNAME) : 设置输出文件使用的 BFD 格式同 ld 选项-o format BFDNAME, 不过 ld 选项优先级更高. OUTPUT_FORMAT(DEFAULT,BIG,LITTLE) : 定义三种输出文件的格式(大小端) 若有命令行选项-EB, 则使用第 2 个 BFD 格式; 若有命令行选项-EL，则使用第 3 个 BFD 格式.否则默认选第一个 BFD 格式. TARGET(BFDNAME)：设置输入文件的 BFD 格式同 ld 选项-b BFDNAME. 若使用了 TARGET 命令, 但未使用 OUTPUT_FORMAT 命令, 则最用一个 TARGET 命令设置的 BFD 格式将被作为输出文件的 BFD 格式. ASSERT(EXP, MESSAGE)：如果 EXP 不为真，终止连接过程 EXTERN(SYMBOL SYMBOL …)：在输出文件中增加未定义的符号，如同连接器选项-u FORCE_COMMON_ALLOCATION：为 common symbol(通用符号)分配空间，即使用了-r 连接选项也为其分配

NOCROSSREFS(SECTION SECTION …)：检查列出的输出 section，如果发现他们之间有相互引用，则报错。对于某些系统，特别是内存较紧张的嵌入式系统，某些 section 是不能同时存在内存中的，所以他们之间不能相互引用。 OUTPUT_ARCH(BFDARCH)：设置输出文件的 machine architecture(体系结构)， BFDARCH 为被 BFD 库使用的名字之一。可以用命令 objdump -f 查看。可通过 man -S 1 ld 查看 ld 的联机帮助, 里面也包括了对这些命令的介绍. 六、对符号的赋值在目标文件内定义的符号可以在链接脚本内被赋值. (注意和 C 语言中赋值的不同!) 此时该符号被定义为全局的. 每个符号都对应了一个地址, 此处的赋值是更改这个符号对应的地址. 举例. 通过下面的程序查看变量 a 的地址: a.c 文件 /* a.c */ #include int a = 100; int main() { printf( "&a=%p\n", &a ); return 0; } a.lds 文件 /* a.lds */ a = 3; 编译命令： $ gcc -Wall -o a-without-lds.exe a.c 运行结果： &a = 0×601020 编译命令： $ gcc -Wall -o a-with-lds.exe a.c a.lds 运行结果： &a = 0×3 注意: 对符号的赋值只对全局变量起作用! 对于一些简单的赋值语句，我们可以使用任何 c 语言语法的赋值操作: SYMBOL = EXPRESSION ; SYMBOL += EXPRESSION ; SYMBOL -= EXPRESSION ; SYMBOL *= EXPRESSION ; SYMBOL /= EXPRESSION ; SYMBOL >= EXPRESSION ; SYMBOL &= EXPRESSION ; SYMBOL |= EXPRESSION ; 除了第一类表达式外, 使用其他表达式需要 SYMBOL 已经被在某目标文件的源码中被定义。

. 是一个特殊的符号，它是定位器，一个位置指针，指向程序地址空间内的某位置(或某 section 内的偏移，如果它在 SECTIONS 命令内的某 section 描述内)，该符号只能在 SECTIONS 命令内使用。注意：赋值语句包含 4 个语法元素：符号名、操作符、表达式、分号；一个也不能少。被赋值后，符号所属的 section 被设值为表达式 EXPRESSION 所属的 SECTION(参看 11. 脚本内的表达式) 赋值语句可以出现在连接脚本的三处地方：SECTIONS 命令内，SECTIONS 命令内的 section 描述内和全局位置。示例 1： floating_point = 0; /* 全局位置 */ SECTIONS { .text : { *(.text) _etext = .; /* section 描述内 */ } _bdata = (. + 3) & ~ 4; /* SECTIONS 命令内 */ .data : { *(.data) } } PROVIDE 关键字该关键字用于定义这类符号：在目标文件内被引用，但没有在任何目标文件内被定义的符号。示例 2： SECTIONS { .text : { *(.text) _etext = .; PROVIDE(etext = .); } } 这里，当目标文件内引用了 etext 符号，却没有定义它时，etext 符号对应的地址被定义为.text section 之后的第一个字节的地址。七、 SECTIONS 命令 SECTIONS 命令告诉 ld 如何把输入文件的 sections 映射到输出文件的各个 section: 如何将输入 section 合为输出 section; 如何把输出 section 放入程序地址空间(VMA)和进程地址空间(LMA). 该命令格式如下: SECTIONS { SECTIONS-COMMAND

SECTIONS-COMMAND … } SECTION-COMMAND 有四种: (1) ENTRY 命令 (2) 符号赋值语句 (3) 一个输出 section 的描述(output section description) (4) 一个 section 叠加描述(overlay description) 如果整个连接脚本内没有 SECTIONS 命令, 那么 ld 将所有同名输入 section 合成为一个输出 section 内, 各输入 section 的顺序为它们被连接器发现的顺序.如果某输入 section 没有在 SECTIONS 命令中提到, 那么该 section 将被直接拷贝成输出 section。 7.1、输出 section 描述（基本）输出 section 描述具有如下格式: SECTION-NAME [ADDRESS] [(TYPE)] : [AT(LMA)] { OUTPUT-SECTION-COMMAND OUTPUT-SECTION-COMMAND … } [>REGION] [AT>LMA_REGION] [:PHDR HDR ...] [=FILLEXP] [ ]内的内容为可选选项, 一般不需要. SECTION-NAME：section 名字.SECTION-NAME 左右的空白、圆括号、冒号是必须的，换行符和其他空格是可选的。 7.1.1、输出 section 名字输出 section 名字 SECTION-NAME 必须符合输出文件格式要求，比如：a.out 格式的文件只允许存在.text、.data 和.bss section 名。而有的格式只允许存在数字名字，那么此时应该用引号将所有名字内的数字组合在一起；另外，还有一些格式允许任何序列的字符存在于 section 名字内，此时如果名字内包含特殊字符(比如空格、逗号等)，那么需要用引号将其组合在一起。 7.1.2、输出 section 地址输出 section 地址[ADDRESS]是一个表达式，它的值用于设置 VMA。如果没有该选项且有 REGION 选项，那么连接器将根据 REGION 设置 VMA；如果也没有 REGION 选项，那么连接器将根据定位符号‘.’的值设置该 section 的 VMA，将定位符号的值调整到满足输出 section 对齐要求后的值，这时输出 section 的对齐要求为：该输出 section 描述内用到的所有输入 section 的对齐要求中最严格的对齐要求。例子： .text . : { *(.text) }和.text : { *(.text) } 这两个描述是截然不同的，第一个将.text section 的 VMA 设置为定位符号的值，而第二个则是设置成定位符号的修调值，满足对齐要求后的。 ADDRESS 可以是一个任意表达式，比如，ALIGN(0×10)这将把该 section 的 VMA 设置成定位符号的修调值，满足 16 字节对齐后的。注意：设置 ADDRESS 值，将更改定位符号的值。

7.1.3、输出 section 描述输出 section 描述 OUTPUT-SECTION-COMMAND 为以下四种之一： (1).符号赋值语句 (2).输入 section 描述 (3).直接包含的数据值 (4).一些特殊的输出 section 关键字 7.1.3.1、符号赋值语符号赋值语句已经在《Linux 下的 lds 链接脚本基础（一）》前文介绍过，这里就不累述。 7.1.3.2、输入 section 描述：最常见的输出 section 描述命令是输入 section 描述。输入 section 描述基本语法： FILENAME([EXCLUDE_FILE (FILENAME1 FILENAME2 ...) SECTION1 SECTION2 ...) FILENAME 文件名，可以是一个特定的文件的名字，也可以是一个字符串模式。 SECTION 名字，可以是一个特定的 section 名字，也可以是一个字符串模式例子是最能说明问题的， *(.text) ：表示所有输入文件的.text section (*(EXCLUDE_FILE (*crtend.o *otherfile.o) .ctors)) ：表示除 crtend.o、otherfile.o 文件外的所有输入文件的.ctors section。 data.o(.data) ：表示 data.o 文件的.data section data.o ：表示 data.o 文件的所有 section *(.text .data) ：表示所有文件的.text section 和.data section，顺序是：第一个文件的.text section，第一个文件的.data section，第二个文件的.text section，第二个文件的.data section，... *(.text) *(.data) ：表示所有文件的.text section 和.data section，顺序是：第一个文件的.text section，第二个文件的.text section，...，最后一个文件的.text section，第一个文件的.data section，第二个文件的.data section，...，最后一个文件的.data section 下面看连接器是如何找到对应的文件的。当 FILENAME 是一个特定的文件名时，连接器会查看它是否在连接命令行内出现或在 INPUT 命令中出现。当 FILENAME 是一个字符串模式时，连接器仅仅只查看它是否在连接命令行内出现。注意：如果连接器发现某文件在 INPUT 命令内出现，那么它会在-L 指定的路径内搜寻该文件。字符串模式内可存在以下通配符： * ：表示任意多个字符 ? ：表示任意一个字符 [CHARS] ：表示任意一个 CHARS 内的字符，可用-号表示范围，如：a-z ：表示引用下一个紧跟的字符在文件名内，通配符不匹配文件夹分隔符/，但当字符串模式仅包含通配符*时除外。任何一个文件的任意 section 只能在 SECTIONS 命令内出现一次。看如下例子 SECTIONS {

.data : { *(.data) } .data1 : { data.o(.data) } } data.o 文件的.data section 在第一个 OUTPUT-SECTION-COMMAND 命令内被使用了，那么在第二个 OUTPUT-SECTION-COMMAND 命令内将不会再被使用，也就是说即使连接器不报错，输出文件的.data1 section 的内容也是空的。再次强调：连接器依次扫描每个 OUTPUT-SECTION-COMMAND 命令内的文件名，任何一个文件的任何一个 section 都只能使用一次。读者可以用-M 连接命令选项来产生一个 map 文件，它包含了所有输入 section 到输出 section 的组合信息。再看个例子， SECTIONS { .text : { *(.text) } .DATA : { [A-Z]*(.data) } .data : { *(.data) } .bss : { *(.bss) } } 这个例子中说明，所有文件的输入.text section 组成输出.text section；所有以大写字母开头的文件的.data section 组成输出.DATA section，其他文件的.data section 组成输出.data section；所有文件的输入.bss section 组成输出.bss section。可以用 SORT()关键字对满足字符串模式的所有名字进行递增排序，如 SORT(.text*)。通用符号(common symbol)的输入 section 在许多目标文件格式中，通用符号并没有占用一个 section。连接器认为：输入文件的所有通用符号在名为 COMMON 的 section 内。例子， .bss { *(.bss) *(COMMON) } 这个例子中将所有输入文件的所有通用符号放入输出.bss section 内。可以看到 COMMOM section 的使用方法跟其他 section 的使用方法是一样的。有些目标文件格式把通用符号分成几类。例如，在 MIPS elf 目标文件格式中，把通用符号分成 standard common symbols(标准通用符号)和 small common symbols(微通用符号，不知道这么译对不对？)，此时连接器认为所有 standard common symbols 在 COMMON section 内，而 small common symbols 在.scommon section 内。在一些以前的连接脚本内可以看见[COMMON]，相当于*(COMMON)，不建议继续使用这种陈旧的方式。输入 section 和垃圾回收在连接命令行内使用了选项–gc-sections 后，连接器可能将某些它认为没用的 section 过滤掉，此时就有必要强制连接器保留一些特定的 section，可用 KEEP()关键字达此目的。如 KEEP(*(.text))或 KEEP(SORT(*)(.text)) 最后我们看个简单的输入 section 相关例子： SECTIONS { outputa 0×10000 : {

分享到：

赞收藏

资料库

gcc链接脚本详解.pdf

相关推荐

课程资源

热门标签

最新资料