《编译原理上机实习》指导书
一、上机实习目的
理解编译程序的构造原理,掌握编译程序的构造方法与技术。通过实习,使学生既加深对
编译原理基础理论的理解,又提高动手能力,特别是提高软件设计能力。
二、上机实习要求
在理解编译原理基本思想的基础上,选择一个自己熟悉的程序设计语言,完成编译程序的
设计和实现过程。本上机实习是为某个计算机语言设计一个编译程序,完成词法分析、语法分析、
语义分析等功能,并生成某种机器上的目标代码。在上机实习指导书中给出了上机实习的基本思
路,学生可以按照这个去做,能力强的学生还可以按照所学知识,自行设计方案。
三、上机实习步骤
1.阅读《上机实习任务书》及《上机实习指导书》。
2.根据设计要求写算法,画程序框图
3.根据框图编写源程序
4.输入源程序并上机调试
5.撰写上机实习报告
四、上机实习内容
1、题目:C 语言小子集编译程序的实现
2、C 语言小子集的文法规则:
<程序>::=main(){<分程序>}
<分程序>::=[<常量说明部分);]<变量说明部分>;<语句部分>
<常量说明部分>::=const<常量定义表>
<常量定义表>::=<常量定义表>,<常量定义>
<常量定义表>::=<常量定义>
<常量定义>::=<标识符>=<常量>
<变量说明部分>::=<变量说明><标识符表>
<变量说明>::=int
<标识符表>::=<标识符表>,<标识符>
<标识符表>::=<标识符>
<标识符>::=<字母>
<标识符>::=<标识符><字母>
<标识符>::=<标识符><数字>
<语句部分>::=<语句部分>;<语句>|<语句>
<语句>::=<赋值语句>|<条件语句>|<循环语句>|<读语句>|<写语句>|<复合语句>
<复合语句>::={<语句部分>}
<赋值语句>::=<标识符>=<表达式>
<条件>::=<表达式><关系运算符><表达式>
<表达式>::=<项>|<表达式><加法运算符><项>
<项>::=<因子>|<项><乘法运算符><因子>
<因子>::=<标识符>|<常量>|(<表达式>)
<常量>::=<无符号整数>
<无符号整数>::=<数字序列>
<数字序列>::=<数字序列><数字>
- 1 -
<数字序列>::=<数字>
<加法运算符>::=+|-
<乘法运算符>::=*|/
<关系运算符>::=<|>|!=|>=|<=|==
<条件语句>::=if(<条件>)<语句部分>else<语句部分>
<循环语句>::=while(<条件>)do<语句部分>
<读语句>::=scanf(<格式控制表>,<标识符地址表>)
<写语句>::=printf(<格式控制表>,<标识符表>)
<字母>::=a|b|c|d|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z
<数字>::=0|1|2|3|4|5|6|7|8|9
3、实现功能:
(1)词法分析
扫描源程序,根据词法规则,识别单词,填写相应的符号表。
(2)语法分析
对由源程序作语法分析,确定是否属于 C 语言小子集,同时揭示出程序的内在结构。
(3)语法错误检查
根据 C 语言小子集的文法规则设置检测手段,通过查错子程序或一些查错语句,报告
源程序出错位置、性质等,直至整个程序结束为止。
(4)语义分析与目标代码生成
在语法分析的基础上,进行语义分析,生成源程序的目标代码。源程序的目标代码可以
建立在一个假想的处理机(虚拟机)上,也可以以所学的汇编语言为基础。
源程序样本:
main ()
{ int a,b,x,y,max;
(a>0)
a=10;
while
{ b=a*a;
a=a-1;
}
x=a+b;
if
y=b+b;
(x>y) max=x
else max=y
}
五、附录:PL0 编译程序的实现
- 2 -
1. PL0 概述
PL0 语言是一种类 PASCAL 语言,是教学用程序设计语言,它比 PASCAL 语言简单,作了一
些限制。PL0 的程序结构比较完全,赋值语句作为基本结构,构造概念有顺序执行、条件执行和
重复执行,分别由 BEGIN/END、IF 和 WHILE 语句表示。此外,PL0 还具有子程序概念,包括过程
说明和过程调用语句。在数据类型方面,PL0 只包含唯一的整型,可以说明这种类型的常量和变
量。运算符有+,-,*,/,=,<>,<,>,<=,>=,(,)。说明部分包括常量说明、变量说明和
过程说明。
2. PL0 语言的文法规则
<程序>::=<分程序>.
<分程序>::=[<常量说明部分);][<变量说明部分>;]{<过程说明部分>;}<语句部分>
<常量说明部分>::=const<常量定义>{,<常量定义>}
<常量定义>::=<标识符>=<无符号整数>
<无符号整数>::=<数字>{<数字>}
<变量说明部分>::=var<标识符>{<标识符>}
<标识符>::=<字母>{<字母>|<数字>}
<过程说明部分>::=<过程首部><分程序>
<过程首部>::=procedure<标识符>
<语句部分>::=<语句>|<复合语句>
<复合语句>::=begin<语句>{;<语句>}end
<语句>::=<赋值语句>|<条件语句>|<当型循环语句>|<过程调用语句>|
<读语句>|<写语句>|<复合语句>|<空语句>
<赋值语句>::=<标识符>:=<表达式>
<条件>::=<表达式><关系运算符><表达式>|odd<表达式>
<表达式>::=[+|-]<项>|<表达式><加法运算符><项>
<项>::=<因子>|<项><乘法运算符><因子>
<因子>::=<标识符>|<常量>|(<表达式>)
<常量>::=<无符号整数>
<加法运算符>::=+|-
<乘法运算符>::=*|/
<关系运算符>::=<|>|<>|>=|<=|=
<条件语句>::=if<条件>then<语句>
<过程调用语句>::=call<标识符>
<当型循环语句>::=while<条件>do<语句>
<读语句>::=read(<标识符>{,<标识符>})
<写语句>::=write(<表达式>{,<表达式>})
<字母>::=a|b|c|d|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z
<数字>::=0|1|2|3|4|5|6|7|8|9
3. PL0 编译程序的设计思想
编译程序的设计可以采用自顶向下和自底向上两种不同的方法。由于许多高级语言(如
- 3 -
PASCAL,C)中的语法成分都是递归定义的,PL0 也是如此,所以本实验采用递归子程序法,这
是一种自顶向下的的编译方法,其基本思想是对源程序的每个(或若干个)语法成分编制一个处
理子程序,从处理<程序>这个语法成分的子程序开始,在分析过程中调用一系列过程或函数,对
源程序进行语法和语义分析,直到整个源程序处理完毕为止。
在本上机实习中,我们给出用 PASCAL 语言编写的 PL0 的编译程序,要求学生先读懂它,然
后再用自己熟悉的高级语言改写它,能力强的同学可以按照所学知识,自行设计实现方案。
4.PL0 编译程序的功能
(1)语法分析
对由 PL/0 语言编制的程序作语法分析,确定是否属于 PL/0 语言,同时揭示出程序的内在
结构。
(2)语法错误检查
根据 PL/0 语言的文法规则设置检测手段,通过查错子程序和一些查错语句,报告源程序出
错位置、性质等,直至整个程序结束为止。
(3)生成目标代码
PL/0 语言的目标代码是建立在一个假想的处理机上,此处理机称为 PL/0 处理机。
(4)执行目标代码
PL/0 处理机是一种假想的处理机,其目标代码不能在实际的机器上执行,故此编译程序设
置了一个子程序,它对 PL/0 语言的目标代码逐条解释执行,最后得出所需结果。
5.PL/0 编译程序的有关过程及函数
在 PL/0 语言的编译文本中,除了常量和变量说明外,共有 18 个相互嵌套或并列的过程(或
函数)。现对这些过程和函数作扼要说明。
(1)error(n):其功能是报告 PL/0 源程序的出错信息。n 为错误类型号,共可查出 36 种错
误。
(2)getsym:词法分析子程序。其功能为读单词。
getch:读字符子程序。它嵌套于读单词子程序中。
(3)gen(x,y,z),伪代码生成子程序。其功能是根据不同的 x、y、z 生成不同的伪代码。x
表示指令码,y 表示层差,z 表示位移量或数。
(4)test(sl,s2,n):查错子程序。其功能是检测源程序中的语法错误。
(5)block(1ev,tx,fsys):分程序处理模块。其功能为对分程序进行处理。lev 表示层差,
tx 表示标识符表的下标,fsys 是符号集,表示可能出现的符号。
分程序处理模块是整个编译程序的核心,它包含以下的过程和函数。
①enter(k):其功能是造符号表 table。k 表示符号的类型,其取值范围是(constant,
variable,proceable),即此子程序对常量、变量和过程造符号表 table,以备检查标识符是否
说明过。
②position(id):其功能是查符号表,它是一个函数。 id 是所检查的标识符,若查到则给
出标识符 id 在标识符表中的位置,否则给 0。
③constdeclaration:常量造表子程序。其功能是为常量造一张常量表,内填常量名、常量
值。它通过调用子程序 enter(k)完成,此时 k=constant。
④vardeclaration:变量造表子程序。其功能是为变量造一张变量表,内填变量名、所处层
号。它也是通过调用子程序 enter(k)来完成的,此时 k=variable。
- 4 -
⑤listcode,打印(伪)代码子程序。其功能是输出生成的目标代码。
⑥statement(fsys):语句处理子程序。其功能是处理语句,它是递归调用的核心部分。其
递归调用顺序如下:
expression(fsys):处理算术表达式子程序;
term(fsys):处理项子程序;
condition(fsys):处理因子子程序。
(6)interpret,执行目标代码子程序。其功能是对编译过程中生成的目标代码(伪代码)逐条
解释执行。
base(l):提供计算静态链信息子程序。它为过程调用提供调用所需的基地址。
整个 PL/0 编译程序通过主程序调用分程序处理模块 block,再通过 block 递归调用上述
的子程序,达到对 PL/0 语言的程序进行编译的目的。
6.编译步骤
程序中用数组 word 存贮 PL/0 语言的所有保留字。保留字有 begin、call、const、do、
end、if、odd、procedure、read、then、var、while、write;
用数组 swym 存贮保留字所对应的符号表 symbol 中的符号;
用数组 ssym 存贮关系运算符及特殊符号+、-、*、/、(、)、=、,、<、>及;所对应的符号
表 symbol 中的符号;
用数组 mnemonic 存贮目标代码的指令码部分。
其具体步骤如下:
①在主程序中给出编译程序所需的初始值。置字符字数 cc、行长 ll、代码分配下标 cx、错
误个数 err 等为 0。调 getsym 读单词;
②调 block 模块,进入分程序处理;
③判断所读单词是否为常量说明符号 constsym,是则转 4),否则转 5)。
④读单词并作常量说明处理;查所读单词是否为“,”,是则重复本步;否则判断此单词是否
为“;”,是则读单词,否则给出出错信息。进行下一步;
⑤所读单词是否为变量说明符号 variable,是则读单词并作变量说明处理,再读单词并判
断是否为“,”,是则重复本步;否则判断此单词是否为“;”,是则读单词,否则给出出错信息。
进行下一步;
⑥cxl:=cx,并生成 jmp 0,0 指令,判断所读单词是否为过程说明符号 proceduresym,是
则读单词转 7),否则转 11);
⑦判断所读单词是否为标识符,是则转 8),否则给出出错信息再进行下一步;
⑧标识符填表,再读单词。判断所读单词是否为“;”,是则读单词,否则给出出错信息。进
行下一步;
⑨递归调用分程序处理子程序 block;
⑩最近所读单词是否为“;”,是则继续读一单词,否则给出出错信息。转 6);
⑾code[cxl].a:=cx,生成分配局部变量指令,语句处理,生成 opr 0,0 指令;
⑿返回主程序,err 是否为 0,是则调子程序 interpret,转 13),否则给出出错信息,结束
编译;
⒀解释执行生成的目标代码,列出结果。
PL/0 编译程序及主要参数
- 5 -
1)PL/0 编译程序
program plO(input,output,ff,fi,fw2);{带有代码生成的 PL/0 编译程序}
label 99;
const norw=13; {保留字个数}
txmax=100, {标识符表的长度}
nmax=14, {数中数字的最大个数}
a1=10; {标识符的长度}
amax=20471;{最大地址}
levmax=3;
cxmax=200; {代码数组的大小}
writex=20;
{程序体嵌套的最大深度}
type symbol=(nul,ident,number,plus,minus,times,slash,oddsym,eql,neq,lss,
leq,gtr,geq,lparen,rparen,comma,semicolon,period,becomes,beginsym, endsym,
ifsym,thensym,whilesym,dosym,callsym,constsym,varsym,procsym,readsym,writesym,
upcomma) ;
alfa=packed array[1..a1] of char;
object=(constant,variable,proceable) ;
symset=set Of symbol;
fct=(1it,opr,lod,sto,cal,int,jmp,jpc);{functions}
instruction=packed record
{功能码}
f:fct ;
l: 0..1evmax;{层}
a:0..amax; {相对地址}
end;
{lit 0,a :取常数 a
opr 0,a:执行运算 a
lod l,a:取层差为 l,相对地址为 a 的常量
sto l,a:存到层差为 l,相对地址为 a 的变量
cal l,a:调用层差为 l 的过程
int 0,a:t 寄存器增加 a
jmp 0,a: 转移到指令地址 a 处
jpc 0,a:条件转移到指令地址 a 处}
var ff,fi:text;
{输入文件名 ff 和 fi}
{最近读到的标识符}
{输出文件名 fw2}
fw2:text;
ch:char;
{最近读到的字符}
sym:symbol; {最近读到的符号}
id:alfa;
num:integer; {最近读到的数}
cc:integer;
ll:integer;
wx:integer;
kk,err,cw:integer;
cx:integer;
line:array[1..81]of char;
{字符计数}
{行长}
{代码分配下标}
- 6 -
a:alfa;
chwr:array[1..writex] of alfa;
code:array[0..cxmax] of instruction;
word:array[1..norw] of alfa;
wsym:array[1..norw] of symbol;
ssym:array[char] of symbol;
mnemonic:array[fct] of packed array[1..3] of char;
declbegsys,statbegsys,facbegsys:symset;
table:array[0..txmax] of record
name:alfa;
case kind:object of
constant:(val:integer);
variable,proceable:(1evel,dr:integer);
end;
procedure error(n:integer); {出错显示子程序}
writeln(fw2,’****’,’’:cc,n:2):
err:=err+1;
begin
end;
procedure getsym;
{读单词子程序}
var i,j,k:integer;
procedure getch;
{读字符子程序}
begin if cc=ll then
begin if eof(ff) then
begin write(fw2,’program incompletet’); goto 99;end;
ll:=O;cc:=0;write(fw2,cw:5,’ ’);cw:=cw+1;
while not(eoln(ff)) do
ll:=ll+1 ;read(ff,ch) ;write(fw2,ch) ; line[ll]:=ch;
begin
end;
writeln(fw2);ll:=ll+1;read(ff,1ine[ll]) ;
end;
cc:=cc+l;ch:=line[cc] ;
end;
{读字符子程序结束}
begin
{读单词子程序开始}
while ch=’ ’ do getch;
if ch in [’a’..’z’] then
begin kc:=0;
repeat if k
=kk then
kk:=k
else repeat a[kk]:=’ ’ ;kk:=kk-1;
untll kk=k;
id:=a;i:=1;j:=norw;
- 7 -
repeat k=(i+j) div 2;
if id<=word[k] then j:=k-1;
if id>=word[k] then i:=k+1;
untll i>j;
if i-1>j then sym:=wsym[k]
e1se sym:=ident;
end
else if ch in
{标识符或保留字处理结束}
[’0’..’9’] then
{数处理}
begin
k:=0;num:=0;sym:=number;
repeat num:=10*num+(Ord(ch)一 Ord(’0’)); k:=k+1;getch;
until not(ch in[’0’..’9’]) ;
if k>nmax then error(30)
end
{数处理结束}
e1se if ch=’:’ then
begin getch;
if ch=’=’ then
begin sym:=becomes;getch; end
else sym:=nul;
end
else case ch of
’+’,’-’,’*’,’/’,’(’,’)’,’=’,’,’,’ ;’,’.’:begin sym:=ssym[ch] ;
getch;
’>’:begin getch;
if ch=’=’ then
else sym:=gtr;
end;
begin sym:=geq;getch;end
end;
’<’:begin getch;
if ch=’=’ then
begin sym:=leq;getch;end
else if ch=’>’ then
begin sym:=neq;getch;end
end
end ; {case
}
end; {读单词子程序结束}
else sym:=lss;
procedure gen(x:fct;y,z:integer) ; {代码生成子程序}
begin if cx>cxmax then
begin write(’program too long’) ; goto 99
with code[cx] do
end;
begin
f:=x;l:=y;a:=z
end;
cx:=cx+1
end;
{代码生成子程序结束}
- 8 -