logo资料库

awk命令详解大全.pdf

第1页 / 共17页
第2页 / 共17页
第3页 / 共17页
第4页 / 共17页
第5页 / 共17页
第6页 / 共17页
第7页 / 共17页
第8页 / 共17页
资料共17页,剩余部分请下载后查看
awk 命令详解大全
什么是awk?
为什么使用awk?
awk的调用方式
awk的语法
awk的记录、字段与内置变量
awk的内置函数
在命令行使用awk
awk的变量
运算与判断:
awk的流程控制
BEGIN和END:
流程控制语句
if...else语句:
while语句
do-while语句
for语句
awk中的自定义函数
awk高级输入输出
读取下一条记录:
简单地读取一条记录
关闭文件:
输出到一个文件:
输出到一个命令
awk与shell script混合编程
awk读取Shell script程序变量
将shell命令的执行结果送给awk处理
shell script程序读awk的执行结果
在awk中执行shell命令行----嵌入函数system()
尾声
附录:
awk的常规表达式元字符
awk算术运算符
awk允许的测试:
awk的操作符(按优先级升序排列)
awk内置变量(预定义变量)
awk的内置函数
awk 命令详解大全 目录 awk 命令详解大全 1. 什么是awk? 2. 为什么使用awk? 3. awk的调用方式 awk的语法 4. awk的记录、字段与内置变量 5. 6. awk的内置函数 7. 在命令行使用awk 8. 9. 运算与判断: 10. awk的流程控制 awk的变量 10.1. BEGIN和END: 10.2. 流程控制语句 11. 12. 13. 14. 15. 尾声 附录: 15.1. 15.2. 15.3. 15.4. 15.5. 15.6. if...else语句: 10.2.1. 10.2.2. while语句 10.2.3. do-while语句 10.2.4. awk中的自定义函数 awk高级输入输出 for语句 .......................................................................................................................... 1 .............................................................................................................................. 1 ...................................................................................................................... 1 ........................................................................................................................ 2 ................................................................................................................................ 3 ................................................................................................ 3 ........................................................................................................................ 4 .................................................................................................................... 4 ................................................................................................................................ 5 ........................................................................................................................... 6 ................................................................................................................ 6 ............................................................................................................ 6 ........................................................................................................... 7 ...................................................................................................... 7 .......................................................................................................... 7 ..................................................................................................... 8 .............................................................................................................. 8 ........................................................................................................ 8 ............................................................................................................ 9 ................................................................................................... 9 ............................................................................................. 10 ................................................................................................................ 11 .................................................................................................... 11 ..................................................................................................... 11 ............................................................................................. 11 ................................................................................. 11 ................................................................... 12 ......................................................................... 12 .................................................... 13 ................................................................................................................................. 13 ............................................................................................................................. 14 ...................................................................................... 14 ...................................................................................................... 14 .................................................................................................. 15 ........................................................................ 15 .............................................................................. 15 ...................................................................................................... 16 awk的常规表达式元字符 awk算术运算符 awk允许的测试: awk的操作符(按优先级升序排列) awk内置变量(预定义变量) awk的内置函数 awk读取Shell script程序变量 13.1. 13.2. 将shell命令的执行结果送给awk处理 13.3. 13.4. 在awk中执行shell命令行----嵌入函数system() shell script程序读awk的执行结果 12.1. 读取下一条记录: 12.2. 简单地读取一条记录 12.3. 关闭文件: 12.4. 输出到一个文件: 12.5. 输出到一个命令 awk与shell script混合编程
1. 什么是 awk? 你可能对 UNIX 比较熟悉,但你可能对 awk 很陌生,这一点也不奇怪,的确,与其优秀 的功能相比,awk 还远没达到它应有的知名度。awk 是什么?与其它大多数 UNIX 命令不同 的是,从名字上看,我们不可能知道 awk 的功能:它既不是具有独立意义的英文单词,也 不是几个相关单词的缩写。事实上,awk 是三个人名的缩写,他们是:Aho、(Peter)Weinberg 和(Brain)Kernighan。正是这三个人创造了 awk---一个优秀的样式扫描与处理工具。 AWK 的功能是什么?与 sed 和 grep 很相似,awk 是一种样式扫描与处理工具。但其功 能却大大强于 sed 和 grep。awk 提供了极其强大的功能:它几乎可以完成 grep 和 sed 所能 完成的全部工作,同时,它还可以可以进行样式装入、流控制、数学运算符、进程控制语句 甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上, awk 的确拥有自己的语言:awk 程序设计语言,awk 的三位创建者已将它正式定义为:样式 扫描和处理语言。 2. 为什么使用 awk? 即使如此,你也许仍然会问,我为什么要使用 awk? 使用 awk 的第一个理由是基于文本的样式扫描和处理是我们经常做的工作,awk 所做的 工作有些象数据库,但与数据库不同的是,它处理的是文本文件,这些文件没有专门的存储 格式,普通的人们就能编辑、阅读、理解和处理它们。而数据库文件往往具有特殊的存储格 式,这使得它们必须用数据库处理程序来处理它们。既然这种类似于数据库的处理工作我们 经常会遇到,我们就应当找到处理它们的简便易行的方法,UNIX 有很多这方面的工具,例 如 sed 、grep、sort 以及 find 等等,awk 是其中十分优秀的一种。 使用 awk 的第二个理由是 awk 是一个简单的工具,当然这是相对于其强大的功能来说 的。的确,UNIX 有许多优秀的工具,例如 UNIX 天然的开发工具 C 语言及其延续 C++就非常 的优秀。但相对于它们来说,awk 完成同样的功能要方便和简捷得多。这首先是因为 awk 提供了适应多种需要的解决方案:从解决简单问题的 awk 命令行到复杂而精巧的 awk 程序 设计语言,这样做的好处是,你可以不必用复杂的方法去解决本来很简单的问题。例如,你 可以用一个命令行解决简单的问题,而 C 不行,即使一个再简单的程序,C 语言也必须经过 编写、编译的全过程。其次,awk 本身是解释执行的,这就使得 awk 程序不必经过编译的过 程,同时,这也使得它与 shell script 程序能够很好的契合。最后,awk 本身较 C 语言简单, 虽然 awk 吸收了 C 语言很多优秀的成分,熟悉 C 语言会对学习 awk 有很大的帮助,但 awk 本身不须要会使用 C 语言――一种功能强大但需要大量时间学习才能掌握其技巧的开发工 具。 使用 awk 的第三个理由是 awk 是一个容易获得的工具。与 C 和 C++语言不同,awk 只有 1
一个文件(/bin/awk),而且几乎每个版本的 UNIX 都提供各自版本的 awk,你完全不必费心去 想如何获得 awk。但 C 语言却不是这样,虽然 C 语言是 UNIX 天然的开发工具,但这个开发 工具却是单独发行的,换言之,你必须为你的 UNIX 版本的 C 语言开发工具单独付费(当然 使用 D 版者除外),获得并安装它,然后你才可以使用它。 基于以上理由,再加上 awk 强大的功能,我们有理由说,如果你要处理与文本样式扫 描相关的工作,awk 应该是你的第一选择。在这里有一个可遵循的一般原则:如果你用普通 的 shell 工具或 shell script 有困难的话,试试 awk,如果 awk 仍不能解决问题,则便用 C 语言, 如果 C 语言仍然失败,则移至 C++。 3. awk 的调用方式 前面曾经说过,awk 提供了适应多种需要的不同解决方案,它们是: 一、awk 命令行,你可以象使用普通 UNIX 命令一样使用 awk,在命令行中你也可以使 用 awk 程序设计语言,虽然 awk 支持多行的录入,但是录入长长的命令行并保证其正确无 误却是一件令人头疼的事,因此,这种方法一般只用于解决简单的问题。当然,你也可以在 shell script 程序中引用 awk 命令行甚至 awk 程序脚本。 二、使用-f 选项调用 awk 程序。awk 允许将一段 awk 程序写入一个文本文件,然后在 awk 命令行中用-f 选项调用并执行这段程序。具体的方法我们将在后面的 awk 语法中讲到。 三、利用命令解释器调用 awk 程序:利用 UNIX 支持的命令解释器功能,我们可以将一 段 awk 程序写入文本文件,然后在它的第一行加上: #!/bin/awk -f 并赋予这个文本文件以执行的权限。这样做之后,你就可以在命令行中用类似于下面这样的 方式调用并执行这段 awk 程序了。 $awk 脚本文本名 待处理文件 2
4. awk 的语法 与其它 UNIX 命令一样,awk 拥有自己的语法: awk [ -F re] [parameter...] ['prog'] [-f progfile][in_file...] 参数说明: -F re:允许 awk 更改其字段分隔符。 parameter: 该参数帮助为不同的变量赋值。 'prog': awk 的程序语句段。这个语句段必须用单拓号:'和'括起,以防被 shell 解释。这 个程序语句段的标准形式为: 'pattern {action}' 1. 其中 pattern 参数可以是 egrep 正则表达式中的任何一个,它可以使用语法/re/再加 上一些样式匹配技巧构成。与 sed 类似,你也可以使用","分开两样式以选择某个范 围。关于匹配的细节,你可以参考附录,如果仍不懂的话,找本 UNIX 书学学 grep 和 sed(本人是在学习 sed 时掌握匹配技术的)。 2. action 参数总是被大括号包围,它由一系统 awk 语句组成,各语句之间用";"分隔。 awk 解释它们,并在 pattern 给定的样式匹配的记录上执行其操作。与 shell 类似, 你也可以使用“#”作为注释符,它使“#”到行尾的内容成为注释,在解释执行时, 它们将被忽略。你可以省略 pattern 和 action 之一,但不能两者同时省略,当省略 pattern 时没有样式匹配,表示对所有行(记录)均执行操作,省略 action 时执行缺 省的操作――在标准输出上显示。 -f progfile:允许 awk 调用并执行 progfile 指定有程序文件。progfile 是一个文本文件,他 必须符合 awk 的语法。 in_file: awk 的输入文件,awk 允许对多个输入文件进行处理。值得注意的是 awk 不修改 输入文件。如果未指定输入文件,awk 将接受标准输入,并将结果显示在标准输出上。awk 支持输入输出重定向。 5. awk 的记录、字段与内置变量 前面说过,awk 处理的工作与数据库的处理方式有相同之处,其相同处之一就是 awk 支持对记录和字段的处理,其中对字段的处理是 grep 和 sed 不能实现的,这也是 awk 优于 二者的原因之一。在 awk 中,缺省的情况下总是将文本文件中的一行视为一个记录,而将 一行中的某一部分作为记录中的一个字段。为了操作这些不同的字段,awk 借用 shell 的方 法,用$1,$2,$3...这样的方式来顺序地表示行(记录)中的不同字段。特殊地,awk 用$0 表 示整个行(记录)。不同的字段之间是用称作分隔符的字符分隔开的。系统默认的分隔符是 空格。awk 允许在命令行中用-F re 的形式来改变这个分隔符。事实上,awk 用一个内置的变 量 FS 来记忆这个分隔符。awk 中有好几个这样的内置变量,例如,记录分隔符变量 RS、当 前工作的记录数 NR 等等,本文后面的附表列出了全部的内置变量。这些内置的变量可以在 awk 程序中引用或修改,例如,你可以利用 NR 变量在模式匹配中指定工作范围,也可以通 过修改记录分隔符 RS 让一个特殊字符而不是换行符作为记录的分隔符。 3
例: 显示文本文件 myfile 中第七行到第十五行中以字符%分隔的第一字段,第三字段和 第七字段: awk -F % 'NR==7,NR==15 {printf $1 $3 $7}' 6. awk 的内置函数 awk 之所以成为一种优秀的程序设计语言的原因之一是它吸收了某些优秀的程序设计 语言(例如 C)语言的许多优点。这些优点之一就是内置函数的使用,awk 定义并支持了一 系列的内置函数,由于这些函数的使用,使得 awk 提供的功能更为完善和强大,例如,awk 使用了一系列的字符串处理内置函数(这些函数看起来与 C 语言的字符串处理函数相似,其 使用方式与 C 语言中的函数也相差无几),正是由于这些内置函数的使用,使 awk 处理字符 串的功能更加强大。本文后面的附录中列有一般的 awk 所提供的内置函数,这些内置函数 也许与你的 awk 版本有些出入,因此,在使用之前,最好参考一下你的系统中的联机帮助。 作为内置函数的一个例子,我们将在这里介绍 awk 的 printf 函数,这个函数使得 awk 与 c 语言的输出相一致。实际上,awk 中有许多引用形式都是从 C 语言借用过来的。如果你 熟悉 C 语言,你也许会记得其中的 printf 函数,它提供的强大格式输出功能曾经带我们许多 的方便。幸运的是,我们在 awk 中又和它重逢了。awk 中 printf 几乎与 C 语言中一模一样, 如果你熟悉 C 语言的话,你完全可以照 C 语言的模式使用 awk 中的 printf。因此在这里,我 们只给出一个例子,如果你不熟悉的话,请随便找一本 C 语言的入门书翻翻。 例: 显示文件 myfile 中的行号和第 3 字段: $awk '{printf"%03d%s",NR,$1}' myfile 7. 在命令行使用 awk 按照顺序,我们应当讲解 awk 程序设计的内容了,但在讲解之前,我们将用一些例子 来对前面的知识进行回顾,这些例子都是在命令行中使用的,由此我们可以知道在命令行中 使用 awk 是多么的方便。这样做的原因一方面是为下面的内容作铺垫,另一方面是介绍一 些解决简单问题的方法,我们完全没有必要用复杂的方法来解决简单的问题----既然 awk 提 供了较为简单的方法的话。 例:显示文本文件 mydoc 匹配(含有)字符串"sun"的所有行。 $awk '/sun/{print}' mydoc 由于显示整个记录(全行)是 awk 的缺省动作,因此可以省略 action 项: $awk '/sun/' mydoc 4
例:下面是一个较为复杂的匹配的示例: $awk '/[Ss]un/,/[Mm]oon/ {print}' myfile 它将显示第一个匹配 Sun 或 sun 的行与第一个匹配 Moon 或 moon 的行之间的行,并显示到 标准输出上。 例:下面的示例显示了内置变量和内置函数 length()的使用: $awk 'length($0)>80 {print NR}' myfile 该命令行将显示文本 myfile 中所有超过 80 个字符的行号,在这里,用$0 表示整个记录(行), 同时,内置变量 NR 不使用标志符'$'。 例:作为一个较为实际的例子,我们假设要对 UNIX 中的用户进行安全性检查,方法是考察 /etc 下的 passwd 文件,检查其中的 passwd 字段(第二字段)是否为"*",如不为"*",则表 示该用户没有设置密码,显示出这些用户名(第一字段)。我们可以用如下语句实现: #awk -F: '$2=="" {printf("%s no password!",$1' /etc/passwd 在这个示例中,passwd 文件的字段分隔符是“:”,因此,必须用-F:来更改默认的字段分隔 符,这个示例中也涉及到了内置函数 printf 的使用。 8. awk 的变量 如同其它程序设计语言一样,awk 允许在程序语言中设置变量,事实上,提供变量的功 能是程序设计语言的其本要求,不提供变量的程序设计语言本人还从未见过。 awk 提供两种变量,1)、一种是 awk 内置的变量,这前面我们已经讲过,需要着重指出 的是,与后面提到的其它变量不同的是,在 awk 程序中引用内置变量不需要使用标志符"$" (回忆一下前面讲过的 NR 的使用)。2)、awk 提供的另一种变量是自定义变量。awk 允许用 户在 awk 程序语句中定义并调用自已的变量。当然这种变量不能与内置变量及其它 awk 保 留字相同,在 awk 中引用自定义变量必须在它前面加上标志符"$"。与 C 语言不同的是,awk 中不需要对变量进行初始化,awk 根据其在 awk 中第一次出现的形式和上下文确定其具体的 数据类型。当变量类型不确定时,awk 默认其为字符串类型。这里有一个技巧:如果你要让 你的 awk 程序知道你所使用的变量的明确类型,你应当在在程序中给它赋初值。在后面的 实例中,我们将用到这一技巧。 5
9. 运算与判断: 作为一种程序设计语言所应具有的特点之一,awk 支持多种运算,这些运算与 C 语言提 供的几本相同:如+、-、*、/、%等等,同时,awk 也支持 C 语言中类似++、--、+=、-=、=+、 =-之类的功能,这给熟悉 C 语言的使用者编写 awk 程序带来了极大的方便。作为对运算功能 的一种扩展,awk 还提供了一系列内置的运算函数(如 log、sqr、cos、sin 等等)和一些用 于对字符串进行操作(运算)的函数(如 length、substr 等等)。这些函数的引用大大的提 高了 awk 的运算功能。 作为对条件转移指令的一部分,关系判断是每种程序设计语言都具备的功能,awk 也不 例外。awk 中允许进行多种测试,如常用的==(等于)、!=(不等于)、>(大于)、<(小于)、>= (大于等于)、>=(小于等于)等等,同时,作为样式匹配,还提供了~(匹配于)和!~(不 匹配于)判断。 作为对测试的一种扩充,awk 也支持用逻辑运算符:!(非)、&&(与)、||(或)和括号() 进行多重判断,这大大增强了 awk 的功能。本文的附录中列出了 awk 所允许的运算、判断 以及操作符的优先级。 10. awk 的流程控制 流程控制语句是任何程序设计语言都不能缺少的部分。任何好的语言都有一些执行流程 控制的语句。awk 提供的完备的流程控制语句类似于 C 语言,这给我们编程带来了极大的方 便。 10.1. BEGIN 和 END: 在 awk 中两个特别的表达式,BEGIN 和 END,这两者都可用于 pattern 中(参考前面的 awk 语法),提供 BEGIN 和 END 的作用是给程序赋予初始状态和在程序结束之后执行一些扫 尾的工作。任何在 BEGIN 之后列出的操作(在{}内)将在 awk 开始扫描输入之前执行,而 END 之后列出的操作将在扫描完全部的输入之后执行。因此,通常使用 BEGIN 来显示变量和 预置(初始化)变量,使用 END 来输出最终结果。 例:累计销售文件 xs 中的销售金额(假设销售金额在记录的第三字段): $awk >'BEGIN { FS=":";print "统计销售金额";total=0} >{print $3;total=total+$3;} >END {printf "销售金额总计:%.2f",total}' sx (注:>是 shell 提供的第二提示符,如要在 shell 程序 awk 语句和 awk 语言中换行,则需在 行尾加反斜杠) 6
在这里,BEGIN 预置了内部变量 FS(字段分隔符)和自定义变量 total,同时在扫描之前显示 出输出行头。而 END 则在扫描完成后打印出总合计。 10.2. 流程控制语句 awk 提供了完备的流程控制语句,其用法与 C 语言类似。下面我们一一加以说明: 10.2.1. if...else 语句: 格式: if(表达式) 语句 1 else 语句 2 格式中"语句 1"可以是多个语句,如果你为了方便 awk 判断也方便你自已阅读,你最好将多 个语句用{}括起来。awk 分枝结构允许嵌套,其格式为: if(表达式 1) {if(表达式 2) 语句 1 else 语句 2 } 语句 3 else {if(表达式 3) 语句 4 else 语句 5 } 语句 6 当然实际操作过程中你可能不会用到如此复杂的分枝结构,这里只是为了给出其样式罢了。 10.2.2. while 语句 格式为: while(表达式) 语句 7
分享到:
收藏