logo资料库

IBM AIX巡检指导手册.docx

第1页 / 共30页
第2页 / 共30页
第3页 / 共30页
第4页 / 共30页
第5页 / 共30页
第6页 / 共30页
第7页 / 共30页
第8页 / 共30页
资料共30页,剩余部分请下载后查看
第1章 机房环境检查
第2章 状态指示灯检查
第3章 配置检查
第4章 系统配置检查
4.1 处理器
4.2 内存
4.3 内置硬盘
4.4 内置磁带机
4.5 内核类型
4.6 微码版本
4.7 系统版本及补丁
4.8 系统时区
4.9 AIO(异步I/O)
4.10 最大进程数
4.11 SMT(并发多线程)
4.12 换页空间
4.13 dump设置
4.14 errdemon进程
4.15 srcmstr进程
4.16 系统运行的应用
第5章 卷组、文件系统检查
5.1 VG状态
5.2 rootvg镜像
5.3 文件系统信息
第6章 网络检查
6.1 网卡状态
6.2 网卡IP地址
6.3 路由配置
6.4 IP连通性
6.5 hosts文件
第7章 HACMP检查
7.1 I/O Pacing参数
7.2 syncd参数
7.3 HACMP版本
7.4 HACMP日志
7.5 HACMP运行状态
7.6 接管测试
第8章 系统备份检查
第9章 系统错误检查及故障诊断
9.1 检查CPU
9.2 检查内存
9.3 检查内置硬盘
9.4 检查内置磁带机
9.5 检查邮件信息
9.6 检查系统日志
9.7 硬件故障诊断
9.8 检查启动时间
9.9 检查启动日志
9.10 检查SP日志
第10章 性能检查
10.1 CPU性能
10.2 内存性能
10.3 I/O性能
10.4 LPAR分区性能
10.5 topas性能监控
10.6 换页空间使用率
第11章 其它检查
11.1 CDE登录
11.2 远程登录
11.3 机器清洁状况
11.4 微码升级
11.5 系统补丁升级
11.6 系统信息收集
AIX 巡检指导手册 返回>> 第 1 章 机房环境检查 机房环境需要检查的内容如下: A. 机房是否干净,是否有许多灰尘。 B. 机房是否配置气体灭火器。 C. 机房如果有地板,地板通气孔位置是否到位。 D. 机房是否有易燃气体。 E. 机房是否漏水。 F. 机房电压是否稳定,建议电压值保持在 220V±5%。 G. 机房零地电压是否小于 1 伏 H. 机房机房温度是否正常,建议机房的温度保持在 24±2℃。 I. 机房机房湿度是否正常,建议机房的湿度保持在 8%-80%。 J. 是否有远程自动报警装置。 第 2 章 状态指示灯检查 检查硬件部件状态指示灯时,首先需要检查主机面板的告警指示灯是否亮黄色,如果是亮黄色,则需要检 查一下其它硬件部件(例如:电源、风扇、网卡、光纤通道卡、内置硬盘、内置磁带机等)的状态指示灯 是否亮黄色。当硬件部件指示灯亮黄色时,需要引起注意,硬件部件可能坏掉或有故障需要处理。在检查 风扇时,请注意仔细听风扇的声音是否有异常,如果风扇的声音过大,则有可能是其它冗余风扇已经坏掉 而造成风扇转速加快造成。 第 3 章 配置检查 运行下列命令进行主机配置检查: # prtconf 运行下列命令进行主机资产检查: # lscfg –vp 第 4 章 系统配置检查 4.1 处理器 运行命令:lsconf,检查 CPU 类型、位数、主频和数量,例如: # lsconf System Model: IBM,9113-550 型号 Machine Serial Number: 65FD8FE <--- 机器 <--- 机器序列号
<--- CPU 类型 <--- CPU 数量 <--- CPU 主频 <--- <--- <--- 内 <--- 可用的内存大 <--- 机器微码版本 Processor Type: PowerPC_POWER5 Number Of Processors: 2 Processor Clock Speed: 1504 MHz CPU Type: 64-bit <--- CPU 位数 Kernel Type: 64-bit 内核类型 LPAR Info: 1 65-FD8FE LPAR 信息 Memory Size: 3808 MB 存大小 Good Memory Size: 3808 MB 小 Platform Firmware level: Not Available Firmware Version: IBM,SF230_126 Console Login: enable 4.2 内存 运行命令:lsconf –m,检查内存大小,例如: # lsconf –m Memory Size: 3808 MB 内存大小为 3808MB 4.3 内置硬盘 运行命令:lsdev –Cc disk 和 lscfg –vl hdiskX,检查内置硬盘的数量和容量,例如: # lsconf –Cc disk hdisk0 Available 10-88-00-8,0 hdisk1 Available 10-88-00-10,0 16 Bit LVD SCSI Disk Drive hdisk2 Available 10-88-00-9,0 16 Bit LVD SCSI Disk Drive 16 Bit LVD SCSI Disk Drive 内置硬盘有 3 个
P2/Z1-A8 16 Bit LVD SCSI Disk Drive (73400 # lscfg –vl hdisk0 hdisk0 MB) 内置硬盘的容量为 73.4GB 4.4 内置磁带机 运行命令:lscfg –vl rmt0,检查内置磁带机的容量,例如: # lscfg –vl rmt0 rmt0 (36000 MB) U787B.001.DNW42A7-P1-T14-L0-L0 LVD SCSI 4mm Tape Drive 磁带机的非压缩容量是 3600MB 4.5 内核类型 运行命令:lsconf –k,检查内核类型,例如: # lsconf –k Kernel Type: 64-bitk 系统内核是 64 位 4.6 微码版本 运行命令:lsmcode –c,检查机器的微码版本,例如: Power3 以前机器: # lsmcode -c System Firmware level is SST99229 Service Processor level is ss990816 机器微码版本是 SST99229 Power3、Power4 机器: # lsmcode -c Platform Firmware level is 3H080425 System Firmware level is RG080425_d79e22_regatta SPCN Firmware level is 0000RHE11193 机器微码版本是 3H080425 Power5、Power6 机器: The current permanent system firmware image is SF225_096 The current temporary system firmware image is SF225_096 The system is currently booted from the temporary firmware image. 机器微码版本是 SF225_096。备注:一般是检查 temporary system firmware 版 本。
4.7 系统版本及补丁 运行命令:oslevel,检查系统版本和补丁,例如: # oslevel -r 5300-07 操作系统版本是 5.3 # oslevel -s 5300-07-01-0748 操作系统版本是 5.3,TL 是 07,SP 是 01,Fix Level 是 0748。 4.8 系统时区 运行命令:echo $TZ,检查系统时区,例如: # echo $TZ BEIST-8 正确的系统时区设置为 BEIST-8。 备注:如果启用了夏时制,输出值为 BEIST-8BEIDT,则需要运行命令:chtz BEIST-8,改变时区,然后重启系统,再调整日期和时间。 4.9 AIO(异步 I/O) 运行命令:lsdev –Cc aio,检查是否启用 AIO,例如: # lsdev -Cc aio aio0 Available Asynchronous I/O (Legacy) aio0 Available 表示启用了 AIO,如果是 Defined,表示未启用 AIO,则需要运 行下列命令启用 AIO: # chdev -l aio0 -P -a autoconfig='available' 或者 # smitty chaio 然后重启系统。 4.10 最大进程数 运行命令:lsattr –El sys0 –a maxuproc,检查系统每用户的最大进程数,例如: # lsattr –El sys0 –a maxuproc maxuproc 512 Maximum number of PROCESSES allowed per user True 系统每用户的最大进程数为 512,如果需要增加最大进程数到 1024,则运行命 令: # chdev –El sys0 –a maxuproc=1024
4.11 SMT(并发多线程) 只有 Power5 或以后的机器,才支持 SMT 功能。运行命令:smtctl,检查系统是否启用 SMT 功能,例如: # smtctl This system is SMT capable. SMT is currently enabled. SMT boot mode is not set. SMT threads are bound to the same physical processor. proc0 has 2 SMT threads. Bind processor 0 is bound with proc0 Bind processor 1 is bound with proc0 proc2 has 2 SMT threads. Bind processor 2 is bound with proc2 Bind processor 3 is bound with proc2 proc4 has 2 SMT threads. Bind processor 4 is bound with proc4 Bind processor 5 is bound with proc4 proc6 has 2 SMT threads. Bind processor 6 is bound with proc6 Bind processor 7 is bound with proc6 SMT is currently enabled 表示启用了 SMT 功能,SMT is currently disabled 表示未启用 SMT 功能,如果需要启用 SMT 功能,则运行下列命令: # smtctl –m on 4.12 换页空间 运行命令:lsps –a,检查系统换页空间大小,例如: # lsps -a Page Space Group hd6 Physical Volume Size Volume %Used Active Auto hdisk0 yes yes lv Type rootvg 1 2048MB paging00 1 MB hdisk1 yes yes lv rootvg 2048 系统创建了 2 个换页空间,大小分别都为 2048MB,则系统换页空间总的大小为 4096MB。 当物理内存小于等于 4G 时,系统换页空间大小一般为物理内存的 1-2 倍;物理
内存大于 4G 时,系统换页空间大小一般设置为内存大小,再观察系统,检查换 页空间的使用情况,根据需要再增加系统换页空间大小。 例如,当需要增加 hd6 换页空间大小,则运行命令: # chps –s LPS hd6 备注:LPS 是需要增加的换页空间 LP 数量。 4.13 dump 设置 运行命令:sysdumpdev –l 检查系统 dump 设置,例如: # sysdumpdev -l primary secondary copy directory forced copy flag always allow dump dump compression TRUE TRUE ON /var/adm/ras /dev/lg_dumplv /dev/sysdumpnull 系统 dump 的正确设置如上输出。如果不是请运行下列命令修改: # sysdumpdev -P -p /dev/lg_dumplv -K –C 评估当前系统 dump 需要的空间大小: # sysdumpdev –e 显示关于以前发生 DUMP 的统计信息: # sysdumdev -L 检测是否有新的 DUMP 出现: # sysdumpdev -z 4.14 errdemon 进程 运行命令:ps -ef |grep errdemon,检查系统 errdemon 守护进程是否在运行,例如: # ps -ef |grep errdemon root /usr/lib/errdemon 155748 Jul 14 1 0 - 0:00 上面输出信息表示 errdemon 守护进程在运行。 错误日志守护进程从/dev/error 文件里读入错误记录并在系统错误日志里创建 错误日志记录。除了在每次记录错误时向系统错误日志里写一条记录外,错误 日志守护进程还执行像在错误通知数据库里指定的错误通知。 /etc/objrepos/errnotify 文件就是错误通知数据库。默认的系统错误日志由 /var/adm/ras/errlog 文件维护。最近的错误记录放在非易失性随机存取存储 器里(NVRAM)。在系统启动期间,当错误日志守护进程启动后,这条最近的错误
记录就从 NVRAM 里读入并添加到错误日志。 显示系统错误日志,运行命令:errpt 清除系统错误日志,运行命令:errclear 4.15 srcmstr 进程 运行命令:ps –ef | grep srcmstr,检查 srcmstr 守护进程是否在运行,例如: # ps -ef |grep srcmstr root /usr/sbin/srcmstr 159858 Jul 14 1 0 - 0:00 上面输出信息表示 srcmstr 守护进程在运行。 srcmstr 守护进程是系统资源控制器(SRC),srcmstr 守护进程生成并控制子系 统、处理子系统短状态请求、向子系统传递请求并处理出错通知。通常 srcmstr 守护进程通过使用 inittab 文件条目启动。 列出所有子系统的状态,请运行命令: # lssrc -a 列出 tcpip 组中子系统的所有实例的状态,请运行命令: # lssrc -g tcpip 4.16 系统运行的应用 系统运行的应用请询问系统管理员,并做记录。 第 5 章 卷组、文件系统检查 5.1 VG 状态 运行命令:lsvg vgname,检查 VG 状态,例如: # lsvg rootvg VOLUME GROUP: IDENTIFIER: VG STATE: rootvg active 00cfd8fe00004c000000011b1d4ee4ef PP SIZE: VG PERMISSION: PPs: MAX LVs: FREE PPs: LVs: 128 megabyte(s) read/write 1092 (139776 megabytes) 256 72 (9216 megabytes) 16 VG TOTAL
USED PPs: 1020 (130560 megabytes) OPEN LVs: QUORUM: TOTAL PVs: VG DESCRIPTORS: 3 STALE PVs: STALE PPs: ACTIVE PVs: AUTO ON: MAX PPs per VG: 32512 15 1 2 0 0 2 yes 1016 MAX PPs per PV: PVs: LTG size (Dynamic): 256 kilobyte(s) SYNC: HOT SPARE: 32 no BB POLICY: 5.2 rootvg 镜像 no relocatable 运行命令:lsvg –l vgname,检查卷组是否镜像,例如: # lsvg –l rootvg rootvg: LV NAME V STATE hd5 MOUNT POINT TYPE boot MAX AUTO LPs PPs PVs L 1 2 2 closed/syncd N/A hd6 hd8 hd4 hd2 2 2 2 hd9var 2 open/syncd N/A paging 128 256 2 jfslog 1 2 open/syncd open/syncd N/A / open/syncd /usr jfs jfs 16 32 32 64 open/syncd /var jfs 16 32
分享到:
收藏