AIX 巡检指导手册
返回>>
第 1 章 机房环境检查
机房环境需要检查的内容如下:
A. 机房是否干净,是否有许多灰尘。
B. 机房是否配置气体灭火器。
C. 机房如果有地板,地板通气孔位置是否到位。
D. 机房是否有易燃气体。
E. 机房是否漏水。
F. 机房电压是否稳定,建议电压值保持在 220V±5%。
G. 机房零地电压是否小于 1 伏
H. 机房机房温度是否正常,建议机房的温度保持在 24±2℃。
I. 机房机房湿度是否正常,建议机房的湿度保持在 8%-80%。
J. 是否有远程自动报警装置。
第 2 章 状态指示灯检查
检查硬件部件状态指示灯时,首先需要检查主机面板的告警指示灯是否亮黄色,如果是亮黄色,则需要检
查一下其它硬件部件(例如:电源、风扇、网卡、光纤通道卡、内置硬盘、内置磁带机等)的状态指示灯
是否亮黄色。当硬件部件指示灯亮黄色时,需要引起注意,硬件部件可能坏掉或有故障需要处理。在检查
风扇时,请注意仔细听风扇的声音是否有异常,如果风扇的声音过大,则有可能是其它冗余风扇已经坏掉
而造成风扇转速加快造成。
第 3 章 配置检查
运行下列命令进行主机配置检查:
# prtconf
运行下列命令进行主机资产检查:
# lscfg –vp
第 4 章 系统配置检查
4.1 处理器
运行命令:lsconf,检查 CPU 类型、位数、主频和数量,例如:
# lsconf
System Model:
IBM,9113-550
型号
Machine Serial Number:
65FD8FE
<--- 机器
<--- 机器序列号
<---
CPU 类型
<---
CPU 数量
<---
CPU 主频
<---
<---
<--- 内
<--- 可用的内存大
<--- 机器微码版本
Processor Type:
PowerPC_POWER5
Number Of Processors:
2
Processor Clock Speed: 1504
MHz
CPU Type:
64-bit
<---
CPU 位数
Kernel Type:
64-bit
内核类型
LPAR Info: 1
65-FD8FE
LPAR 信息
Memory Size: 3808
MB
存大小
Good Memory Size: 3808
MB
小
Platform Firmware level: Not Available
Firmware Version:
IBM,SF230_126
Console Login: enable
4.2 内存
运行命令:lsconf –m,检查内存大小,例如:
# lsconf –m
Memory Size: 3808 MB
内存大小为 3808MB
4.3 内置硬盘
运行命令:lsdev –Cc disk 和 lscfg –vl hdiskX,检查内置硬盘的数量和容量,例如:
# lsconf –Cc disk
hdisk0 Available 10-88-00-8,0
hdisk1 Available 10-88-00-10,0 16 Bit LVD SCSI Disk Drive
hdisk2 Available 10-88-00-9,0
16 Bit LVD SCSI Disk Drive
16 Bit LVD SCSI Disk Drive
内置硬盘有 3 个
P2/Z1-A8
16 Bit LVD SCSI Disk Drive (73400
# lscfg –vl hdisk0
hdisk0
MB)
内置硬盘的容量为 73.4GB
4.4 内置磁带机
运行命令:lscfg –vl rmt0,检查内置磁带机的容量,例如:
# lscfg –vl rmt0
rmt0
(36000 MB)
U787B.001.DNW42A7-P1-T14-L0-L0
LVD SCSI 4mm Tape Drive
磁带机的非压缩容量是 3600MB
4.5 内核类型
运行命令:lsconf –k,检查内核类型,例如:
# lsconf –k
Kernel Type: 64-bitk
系统内核是 64 位
4.6 微码版本
运行命令:lsmcode –c,检查机器的微码版本,例如:
Power3 以前机器:
# lsmcode -c
System Firmware level is SST99229
Service Processor level is ss990816
机器微码版本是 SST99229
Power3、Power4 机器:
# lsmcode -c
Platform Firmware level is 3H080425
System Firmware level is RG080425_d79e22_regatta
SPCN Firmware level is 0000RHE11193
机器微码版本是 3H080425
Power5、Power6 机器:
The current permanent system firmware image is SF225_096
The current temporary system firmware image is SF225_096
The system is currently booted from the temporary firmware image.
机器微码版本是 SF225_096。备注:一般是检查 temporary system firmware 版
本。
4.7 系统版本及补丁
运行命令:oslevel,检查系统版本和补丁,例如:
# oslevel -r
5300-07
操作系统版本是 5.3
# oslevel -s
5300-07-01-0748
操作系统版本是 5.3,TL 是 07,SP 是 01,Fix Level 是 0748。
4.8 系统时区
运行命令:echo $TZ,检查系统时区,例如:
# echo $TZ
BEIST-8
正确的系统时区设置为 BEIST-8。
备注:如果启用了夏时制,输出值为 BEIST-8BEIDT,则需要运行命令:chtz
BEIST-8,改变时区,然后重启系统,再调整日期和时间。
4.9 AIO(异步 I/O)
运行命令:lsdev –Cc aio,检查是否启用 AIO,例如:
# lsdev -Cc aio
aio0 Available
Asynchronous I/O (Legacy)
aio0 Available 表示启用了 AIO,如果是 Defined,表示未启用 AIO,则需要运
行下列命令启用 AIO:
# chdev -l aio0 -P -a autoconfig='available'
或者
# smitty chaio
然后重启系统。
4.10 最大进程数
运行命令:lsattr –El sys0 –a maxuproc,检查系统每用户的最大进程数,例如:
# lsattr –El sys0 –a maxuproc
maxuproc 512 Maximum number of PROCESSES allowed per user
True
系统每用户的最大进程数为 512,如果需要增加最大进程数到 1024,则运行命
令:
# chdev –El sys0 –a maxuproc=1024
4.11 SMT(并发多线程)
只有 Power5 或以后的机器,才支持 SMT 功能。运行命令:smtctl,检查系统是否启用 SMT 功能,例如:
# smtctl
This system is SMT capable.
SMT is currently enabled.
SMT boot mode is not set.
SMT threads are bound to the same physical processor.
proc0 has 2 SMT threads.
Bind processor 0 is bound with proc0
Bind processor 1 is bound with proc0
proc2 has 2 SMT threads.
Bind processor 2 is bound with proc2
Bind processor 3 is bound with proc2
proc4 has 2 SMT threads.
Bind processor 4 is bound with proc4
Bind processor 5 is bound with proc4
proc6 has 2 SMT threads.
Bind processor 6 is bound with proc6
Bind processor 7 is bound with proc6
SMT is currently enabled 表示启用了 SMT 功能,SMT is currently disabled
表示未启用 SMT 功能,如果需要启用 SMT 功能,则运行下列命令:
# smtctl –m on
4.12 换页空间
运行命令:lsps –a,检查系统换页空间大小,例如:
# lsps -a
Page Space
Group
hd6
Physical Volume
Size
Volume
%Used
Active
Auto
hdisk0
yes
yes
lv
Type
rootvg
1
2048MB
paging00
1
MB
hdisk1
yes
yes
lv
rootvg
2048
系统创建了 2 个换页空间,大小分别都为 2048MB,则系统换页空间总的大小为
4096MB。
当物理内存小于等于 4G 时,系统换页空间大小一般为物理内存的 1-2 倍;物理
内存大于 4G 时,系统换页空间大小一般设置为内存大小,再观察系统,检查换
页空间的使用情况,根据需要再增加系统换页空间大小。
例如,当需要增加 hd6 换页空间大小,则运行命令:
# chps –s LPS hd6
备注:LPS 是需要增加的换页空间 LP 数量。
4.13 dump 设置
运行命令:sysdumpdev –l 检查系统 dump 设置,例如:
# sysdumpdev -l
primary
secondary
copy directory
forced copy flag
always allow dump
dump compression
TRUE
TRUE
ON
/var/adm/ras
/dev/lg_dumplv
/dev/sysdumpnull
系统 dump 的正确设置如上输出。如果不是请运行下列命令修改:
# sysdumpdev -P -p /dev/lg_dumplv -K –C
评估当前系统 dump 需要的空间大小:
# sysdumpdev –e
显示关于以前发生 DUMP 的统计信息:
# sysdumdev -L
检测是否有新的 DUMP 出现:
# sysdumpdev -z
4.14 errdemon 进程
运行命令:ps -ef |grep errdemon,检查系统 errdemon 守护进程是否在运行,例如:
# ps -ef |grep errdemon
root
/usr/lib/errdemon
155748
Jul 14
1
0
-
0:00
上面输出信息表示 errdemon 守护进程在运行。
错误日志守护进程从/dev/error 文件里读入错误记录并在系统错误日志里创建
错误日志记录。除了在每次记录错误时向系统错误日志里写一条记录外,错误
日志守护进程还执行像在错误通知数据库里指定的错误通知。
/etc/objrepos/errnotify 文件就是错误通知数据库。默认的系统错误日志由
/var/adm/ras/errlog 文件维护。最近的错误记录放在非易失性随机存取存储
器里(NVRAM)。在系统启动期间,当错误日志守护进程启动后,这条最近的错误
记录就从 NVRAM 里读入并添加到错误日志。
显示系统错误日志,运行命令:errpt
清除系统错误日志,运行命令:errclear
4.15 srcmstr 进程
运行命令:ps –ef | grep srcmstr,检查 srcmstr 守护进程是否在运行,例如:
# ps -ef |grep srcmstr
root
/usr/sbin/srcmstr
159858
Jul 14
1
0
-
0:00
上面输出信息表示 srcmstr 守护进程在运行。
srcmstr 守护进程是系统资源控制器(SRC),srcmstr 守护进程生成并控制子系
统、处理子系统短状态请求、向子系统传递请求并处理出错通知。通常 srcmstr
守护进程通过使用 inittab 文件条目启动。
列出所有子系统的状态,请运行命令:
# lssrc
-a
列出 tcpip 组中子系统的所有实例的状态,请运行命令:
# lssrc
-g tcpip
4.16 系统运行的应用
系统运行的应用请询问系统管理员,并做记录。
第 5 章 卷组、文件系统检查
5.1 VG 状态
运行命令:lsvg vgname,检查 VG 状态,例如:
# lsvg rootvg
VOLUME
GROUP:
IDENTIFIER:
VG
STATE:
rootvg
active
00cfd8fe00004c000000011b1d4ee4ef
PP SIZE:
VG PERMISSION:
PPs:
MAX
LVs:
FREE PPs:
LVs:
128 megabyte(s)
read/write
1092 (139776 megabytes)
256
72 (9216 megabytes)
16
VG
TOTAL
USED PPs:
1020 (130560 megabytes)
OPEN
LVs:
QUORUM:
TOTAL
PVs:
VG DESCRIPTORS: 3
STALE
PVs:
STALE PPs:
ACTIVE
PVs:
AUTO ON:
MAX PPs per
VG:
32512
15
1
2
0
0
2
yes
1016
MAX PPs per
PV:
PVs:
LTG size (Dynamic): 256 kilobyte(s)
SYNC:
HOT
SPARE:
32
no
BB POLICY:
5.2 rootvg 镜像
no
relocatable
运行命令:lsvg –l vgname,检查卷组是否镜像,例如:
# lsvg –l rootvg
rootvg:
LV
NAME
V STATE
hd5
MOUNT POINT
TYPE
boot
MAX
AUTO
LPs
PPs
PVs
L
1
2
2
closed/syncd
N/A
hd6
hd8
hd4
hd2
2
2
2
hd9var
2
open/syncd
N/A
paging
128
256
2
jfslog
1
2
open/syncd
open/syncd
N/A
/
open/syncd
/usr
jfs
jfs
16
32
32
64
open/syncd
/var
jfs
16
32