编译原理
实验报告
目录
实验一 词法分析程序设计与实现............ 3
1.1 用 lex 实现.........................................................11
1.2 VC 实现.............................................................. 14
1.3 C#实现............................................................... 21
实验二 语法分析程序设计与实现.......... 38
2.1 yacc................................................................. 43
2.2 C 递归下降.................................................... 45
2.3 JAVA................................................................ 56
2.4 C#可视化........................................................ 62
实验三 语义分析程序设计与实现.......... 73
3.1 c 递归下降......................................................77
3.2 yacc&lex.......................................................... 90
实验一 词法分析程序设计与实现
一、实验目的
通过编写和调试一个词法分析程序,掌握在对程序设计语言的源程序进行扫描的过程中,
将字符流形式的源程序转化为一个由各类单词构成的序列的词法分析方法。
二、基本实验内容与要求
假定一种高级程序设计语言中的单词主要包括关键字 begin、end、if、then、else、while、
do;标识符;浮点常数;六种关系运算符;一个赋值符和四个算术运算符,试构造能识别这
些单词的词法分析程序(各类单词的分类码可参见表 1)。
输入:由符合和不符合所规定的单词类别结构的各类单词组成的源程序文件。
输出:把所识别出的每一单词均按形如(CLASS,VALUE)的二元式形式输出,并将
结果放到某个文件中。对于标识符和浮点常数,CLASS 字段为相应的类别码的助记符;
VALUE 字段则是该标识符、常数的具体值;对于关键字和运算符,采用一词一类的编码形
式,仅需在二元式的 CLASS 字段上放置相应单词的类别码的助记符,VALUE 字段则为“空”。
表 1 语言中的各类单词符号及其分类码表
单词符号 类别编码 类别码的助记符
单词值
字母打头的字母数字
串
机内二进制表示
begin
end
if
then
else
while
do
标识符
浮点常数
<
<=
=
<>
>
>=
:=
+
-
*
/
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
BEGIN
END
IF
THEN
ELSE
WHILE
DO
ID
UCON
LT
LE
EQ
NE
GT
GE
IS
PL
MI
MU
DI
三、实验要求
1、上机前完成词法分析程序的程序流程设计,并选择好相应的数据结构。
2、用于测试扫描器的实例源文件中至少应包含两行以上的源代码。
3、对于输入的测试用例的源程序文件,词法正确的单词分析结果在输出文件中以二元
式形式输出,错误的字符串给出错误提示信息。
例如,若输入文件中的内容为:“if myid>=1.5 then x:=y”,则输出文件中的内容应为:
(IF, )
(ID,’myid’)
(GE, )
(UCON,1.5)
(THEN, )
(ID,’x’)
(IS, )
(ID,’y’)
四、设计思路
词法分析是编译程序的第一个处理阶段,可以通过两种途径来构造词法分析
程序。其一是根据对语言中各类单词的某种描述或定义(如 BNF),用手工的方
式(例如可用 C 语言)构造词法分析程序。一般地,可以根据文法或状态转换图
构造相应的状态矩阵,该状态矩阵连同控制程序一起便组成了编译器的词法分析
程序;也可以根据文法或状态转换图直接编写词法分析程序。构造词法分析程序
的另外一种途径是所谓的词法分析程序的自动生成,即首先用正规式对语言中的
各类单词符号进行词型描述,并分别指出在识别单词时,词法分析程序所应进行
的语义处理工作,然后由一个所谓词法分析程序的构造程序对上述信息进行加工。
如美国 BELL 实验室研制的 LEX 就是一个被广泛使用的词法分析程序的自动生成
工具。总的来说,开发一种新语言时,由于它的单词符号在不停地修改,采用
LEX 等工具生成的词法分析程序比较易于修改和维护。一旦一种语言确定了,则
采用手工编写词法分析程序效率更高。
在一个程序设计语言中,一般都含有若干类单词符号,为此可首先为每类单
词建立一张状态转换图,然后将这些状态转换图合并成一张统一的状态图,即得
到了一个有限自动机,再进行必要的确定化和状态数最小化处理,最后添加当进
行状态转移时所需执行的语义动作,就可以据此构造词法分析程序了。
单词分类与词法分析器的设计思路
为了使词法分析程序结构比较清晰,且尽量避免某些枝节问题的纠缠,我们
假定要编译的语言中,全部关键字都是保留字,程序员不得将它们作为源程序中
的标识符;在源程序的输入文本中,关键字、标识符、浮点常数之间,若未出现
关系和算术运算符以及赋值符,则至少须用一个空白字符加以分隔。作了这些限
制以后,就可以把关键字和标识符的识别统一进行处理。即每当开始识别一个单
词时,若扫视到的第一个字符为字母,则把后续输入的字母或数字字符依次进行
拼接,直至扫视到非字母、数字字符为止,以期获得一个尽可能长的字母数字字
符串,然后以此字符串查所谓保留字表(此保留字表要事先造好),若查到此字
符串,则取出相应的类别码;反之,则表明该字符串应为一标识符。
部分单词的分类表:
c 语言中的部分单词符号及其分类码表
单词符号 类别码的助记符
单词值
序号
字母打头的字母数字串
Begin
End
If
then
else
main
Void
Begin
end
if
Then
else
Main
Void
Include
Include
int
Float
KEY
ID
<=
<>
<
=
>=
>
++
+=
+
--
-=
-
*
!
/=
/
&&
&
:=
:
(
)
int
Float
KEY
ID
<=
<>
<
=
>=
>
++
+=
+
--
-=
-
*
!
/=
/
&&
&
:=
:
(
)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
函数 scanner:每调用一次,就把扫描指示器当前所指示的源程序字符送入
字符变量 ch,然后把扫描指示器前推一个字符位置,判断第一个字符是数字还
是字符还是。
每识别一个单词,先判断它的第一个字母
如果是字母->AlphaRecong
如果是数字->digitRecong
如果是操作符->OperatorRecong
如果是空格或者换行->说明这个单词结束,什么也不做
字符数组 TOKEN:用来依次存放一个单词词文中的各个字符。
函数 report_error:提示出错
函数 OperatorRecong: 识别单词的第一个字符是运算符的情况,进行下一
步的判断
与当前识别的字母比对,产生不同的输出
函数 AlphaRecong:识别单词的第一个字符是数字的情况,进而判断是标识
符还是关键字
函数 digitRecong:识别单词的第一个字符是数字的情况,进而判断是否是
整数,浮点数