诊断和故障排除指南 – Virtual SAN
VMware® Virtual SAN
诊断和故障排除参考手册
Cormac Hogan
存储和可用性业务部门
VMware
版本 1.0/2015 年 3 月
V M w a r e 存 储 和 可 用 性 文 档 /1
诊断和故障排除参考手册 – Virtual SAN
1. 简介 ................................................................... 12
运行状况服务 ............................................................. 12
2. VMWARE VIRTUAL SAN (VSAN) 是什么? ..................................... 13
VIRTUAL SAN 的常见故障排除方案 ............................................. 14
本文结构 ................................................................. 15
3. VIRTUAL SAN 的故障排除工具 ............................................. 16
VSPHERE WEB CLIENT .......................................................... 16
ESXCLI ................................................................... 16
RUBY VSPHERE 控制台 - RVC .................................................. 17
VSAN OBSERVER .............................................................. 17
第三方工具 ............................................................... 17
故障排除工具摘要 ......................................................... 18
4.《VMWARE 兼容性指南》和 VIRTUAL SAN ..................................... 19
检查 VSPHERE 软件版本 ...................................................... 19
关于 VIRTUAL SAN READY NODE 的说明 .......................................... 20
关于 VMWARE EVO:RAIL 的说明 ............................................... 20
检查主机/服务器兼容性 .................................................... 21
esxcli hardware platform get ........................................... 21
通过 VCG 验证服务器支持 .................................................. 22
检查主机内存要求 ......................................................... 23
主机内存不足的症状 ..................................................... 23
许可证检查 ............................................................... 24
同类主机配置 ............................................................. 25
关于多个控制器和 SAS 扩展器的说明......................................... 25
第 1 部分 - 收集控制器/闪存设备信息 ....................................... 26
使用 vSphere Web Client UI 捕获设备信息 ................................ 26
使用 ESXCLI 捕获设备信息 ............................................... 27
esxcli storage core device list ........................................ 27
直通或 RAID-0 .......................................................... 29
esxcli core storage adapter list ....................................... 29
esxcfg-scsidevs –a .................................................... 30
处理多个控制器 ......................................................... 30
esxcli storage core path list .......................................... 30
esxcfg-scsidevs –A .................................................... 31
关于 SCSI 标识符的说明 ................................................. 32
显示磁盘驱动器信息 ..................................................... 32
esxcfg-scsidevs –c .................................................... 32
使用 ESXCLI 捕获存储控制器信息 ......................................... 33
esxcli hardware pci list ............................................... 33
vmkload_mod –s ........................................................ 35
esxcli system module get -m ............................................ 35
V M w a r e 存 储 和 可 用 性 文 档 / 2
诊断和故障排除参考手册 – Virtual SAN
esxcli software vib list ............................................... 36
使用 fio-status(Fusion-IO 命令)检查设置 .............................. 37
第 2 部分 - 根据《VMWARE 兼容性指南》验证硬件支持 .......................... 38
收集的信息 ............................................................. 38
检查存储控制器/适配器的可支持性 ........................................ 39
了解 RAID-0 与直通 ..................................................... 40
检查存储控制器/适配器驱动程序和固件 .................................... 41
关于 OEM ESXi ISO 映像的说明 ........................................... 42
检查 Fusion-IO 闪存设备:型号 .......................................... 43
检查 Fusion-IO 闪存设备:固件 .......................................... 45
检查 Fusion-IO 闪存设备:驱动程序 ...................................... 46
演示结果 ............................................................... 47
版本 5.5 中的闪存注意事项 ................................................ 48
版本 6.0 中的闪存注意事项 ................................................ 49
全闪存设备的注意事项 ..................................................... 49
磁盘注意事项 ............................................................. 50
外部存储机箱的注意事项 ................................................... 50
处理器电源管理的注意事项 ................................................. 50
VCG 查阅总结 ............................................................. 51
5. VIRTUAL SAN 软件组件 ................................................... 52
本地日志的结构化对象管理 - LSOM ........................................ 52
分布式对象管理器 - DOM ................................................. 52
群集级别对象管理器 - CLOM .............................................. 52
群集监控、成员资格和目录服务 - CMMDS ................................... 53
可靠数据报传输 - RDT ................................................... 53
6. 了解可用性和可访问性 ................................................... 54
对象和组件 ............................................................... 54
什么是副本? ............................................................. 55
什么是证明? ............................................................. 55
故障:“不存在”与“已降级” ............................................. 56
对象合规性状态:合规与不合规 ............................................. 59
对象操作状况:正常与不正常 ............................................... 60
虚拟机可访问性:不可访问与孤立 ........................................... 61
故障处理 – VIRTUAL SAN 故障安全机制 ....................................... 61
遇到多次故障时的虚拟机行为 ............................................... 61
虚拟机已打开电源且虚拟机主页命名空间对象不可访问 ....................... 62
虚拟机已打开电源且磁盘对象不可访问 ..................................... 62
7. 了解预期的故障行为 ..................................................... 63
磁盘从 ESXI 主机中意外拔出 ................................................ 63
预期行为: ............................................................. 63
预期行为 – UI 视图和日志条目: ........................................ 64
闪存缓存 SSD 从 ESXI 主机中意外拔出 ....................................... 65
预期行为: ............................................................. 65
当磁盘出现故障时会发生什么情况? ......................................... 66
V M w a r e 存 储 和 可 用 性 文 档 /3
诊断和故障排除参考手册 – Virtual SAN
预期行为: ............................................................. 66
当缓存层 SSD 出现故障时会发生什么情况? ................................... 67
预期行为: ............................................................. 67
将新磁盘放在 ESXI 主机中 .................................................. 68
预期行为: ............................................................. 68
将新缓存层 SSD 放在 ESXI 主机中 ........................................... 68
预期行为: ............................................................. 68
当服务器出现故障或重新引导时会发生什么情况? ............................. 70
断开网络链路时会发生什么情况? ........................................... 71
整个群集网络出现故障时会发生什么情况? ................................... 72
存储 I/O 控制器出现故障时会发生什么情况? ................................. 72
处理多个故障 ............................................................. 73
8. RVC 入门 ............................................................... 74
RVC 和 VSAN OBSERVER 简介 .................................................. 74
RVC 部署建议 ............................................................. 74
从 VCENTER SERVER APPLIANCE 启动 RVC.......................................... 74
从 WINDOWS VCENTER SERVER 启动 RVC ........................................... 78
9. 导航 RVC ............................................................... 81
导航 RVC 的示例 .......................................................... 81
使用 RVC 显示适配器信息 .................................................. 85
vsan.disks_info –show-adapters ........................................ 85
使用 RVC 验证 VIRTUAL SAN 功能 ............................................. 85
vsan.cluster_info ...................................................... 86
关于故障域的说明 ....................................................... 87
vsan.check_state ....................................................... 88
vsan.check_limits ...................................................... 90
关于 RDT 关联/插槽/客户端/所有者的简要说明 ............................. 94
关于重新访问的磁盘组件的简要说明 ....................................... 94
了解组件和组件计数 ..................................................... 96
通过 vSphere Web Client 检查组件 ....................................... 96
vsan.vm_object_info .................................................... 98
vsan.object_info ....................................................... 99
vsan.whatif_host_failures ............................................. 100
10. 对 VIRTUAL SAN 网络进行故障排除 ...................................... 101
VIRTUAL SAN 网络简介 ...................................................... 102
VIRTUAL SAN 网络要求 ...................................................... 103
物理网卡 (NIC) 要求 ................................................... 103
Virtual SAN 流量 – vmknic 要求 ....................................... 103
虚拟交换机要求 ........................................................ 103
MTU 与巨帧 ............................................................ 104
多播流量要求 .......................................................... 104
多播流量的 IGMP 侦听和 IGMP 查询器 .................................... 105
使用 NIOC 和 VDS 在 Virtual SAN 流量上设置服务质量 .................... 106
VIRTUAL SAN 和 VSPHERE HA 的网络依赖关系 ................................... 107
V M w a r e 存 储 和 可 用 性 文 档 /4
诊断和故障排除参考手册 – Virtual SAN
更改 vSphere HA 网络 .................................................. 107
检查 VIRTUAL SAN 网络是否正常运行 ......................................... 109
esxcli vsan 网络列表 .................................................. 109
esxcli network ip interface list ...................................... 110
esxcli network ip interface ipv4 get –i vmk2 ......................... 110
vmkping ............................................................... 111
vsan.cluster_info ..................................................... 111
esxcli network ip neighbor list ....................................... 112
esxcli network diag ping .............................................. 112
检查多播设置 ............................................................ 113
tcpdump-uw –i vmk2 udp port 23451 –v ................................ 113
tcpdump-uw –i vmk2 igmp .............................................. 114
存在多个 VIRTUAL SAN 群集时更改多播设置 ................................... 115
esxcli vsan 网络列表 .................................................. 115
esxcli vsan network ipv4 set .......................................... 115
网络端口和 ESXI 防火墙 ................................................... 117
检查 VIRTUAL SAN 网络的性能 ............................................... 118
iperf(对于 Virtual SAN 5.5) ......................................... 118
iperf(对于 Virtual SAN 6.0) ......................................... 118
检查 VIRTUAL SAN 网络限制 ................................................. 119
vsan.check_limits ..................................................... 119
网络状态:检测到配置错误 ................................................ 121
识别已分区的群集 ........................................................ 121
esxcli vsan 群集获取 .................................................. 122
vsan.cluster_info ..................................................... 123
对多播配置问题进行排除故障 .............................................. 124
多播配置错误问题的症状 ................................................ 124
对 MTU/巨帧不匹配进行故障排除 ........................................... 125
esxcli network ip interface list ...................................... 125
esxcli network vswitch standard list .................................. 125
MTU 配置错误的症状:无法完成文件创建 .................................. 127
验证子网/VLAN 设置 ...................................................... 128
esxcli network ip interface ipv4 get –i vmk2 ......................... 128
刷新网络配置 ............................................................ 129
vsan.reapply_vsan_vmknic_config ....................................... 129
使用 LACP FOR VSAN 网络的注意事项 ........................................ 129
通过第 3 层网络路由 VIRTUAL SAN 流量 ...................................... 129
物理网络交换机的配置和流控制 ............................................ 130
ethtool ............................................................... 130
物理网络交换机的功能互操作性 ............................................ 130
VIRTUAL SAN 网络的检查表摘要 .............................................. 131
11. 对 VIRTUAL SAN 存储进行故障排除 ...................................... 132
重新访问的 VIRTUAL SAN 对象和组件 ......................................... 132
对象布局和 RAID 树 .................................................... 133
VIRTUAL SAN 存储要求 ...................................................... 135
V M w a r e 存 储 和 可 用 性 文 档 /5
诊断和故障排除参考手册 – Virtual SAN
直通模式与 RAID-0 模式 ................................................ 135
检查存储 I/O 控制器队列深度 ........................................... 136
用于检查控制器队列深度的 esxtop ....................................... 136
esxcfg-info –s | grep “==+SCSI Interface” –A 18 ................... 137
配置 VIRTUAL SAN 存储 ..................................................... 139
存储 I/O 控制器缓存 ................................................... 139
关于 HP SSD 智能路径观察结果的说明 .................................... 139
关于全闪存容量层的说明 ................................................ 140
标识属于 RAID-0 卷的 SSD ................................................. 141
VIRTUAL SAN 存储限制 ...................................................... 142
vsan.check_limits ..................................................... 142
验证 VIRTUAL SAN 存储操作 – ESX CLI ...................................... 144
esxcli core storage device list ....................................... 144
Is SSD 和 Is Local .................................................... 145
esxcli vsan storage list .............................................. 147
vdq ................................................................... 147
vdq - IsCapacityFlash ................................................. 148
esxcli storage core device stats get .................................. 149
验证 VIRTUAL SAN 存储操作 – RVC .......................................... 150
vsan.check_state ...................................................... 150
vsan.disks_stats ...................................................... 150
VIRTUAL SAN 数据存储空间管理 .............................................. 151
维护模式 .............................................................. 151
SSD、磁盘或主机故障 ................................................... 152
小型磁盘驱动器容量的注意事项 .......................................... 152
超大型 VMDK 的注意事项 ................................................ 152
动态更改虚拟机存储策略 .................................................. 153
使用无法实现的策略置备 .................................................. 153
达到阈值时会发生什么情况? ............................................ 154
VIRTUAL SAN 上的组件分布 .................................................. 154
使用 RVC 检查磁盘使用情况分布 – vsan.disks_stats ..................... 155
使用 RVC 检查组件分布 – vsan.disks_limits ............................ 155
使用 RVC 主动平衡组件分布 ............................................... 156
vsan.proactive_rebalance .............................................. 156
VIRTUAL SAN 故障修复 – 重新构建组件 ...................................... 158
vsan.resync_dashboard ................................................. 159
vsan.vm_object_info ................................................... 159
vsan.resync_dashboard ................................................. 160
测试 VIRTUAL SAN 功能 - 部署虚拟机 ........................................ 161
diagnostics.vm_create ................................................. 161
diagnostics.vm_create failure – clomd not running .................... 161
常见存储问题和解决方案 .................................................. 163
Virtual SAN 正在声明磁盘,但容量不正确 ................................ 163
Virtual SAN 不声明磁盘 - 现有分区信息 ................................. 163
esxcli vsan storage remove ............................................ 164
V M w a r e 存 储 和 可 用 性 文 档 /6
诊断和故障排除参考手册 – Virtual SAN
partedUtil ............................................................ 164
Virtual SAN 不声明磁盘 - Is Local:false ............................... 164
VIRTUAL SAN 存储设备故障观察结果 .......................................... 166
磁盘出现故障/以可控方式移除时的观察结果 ............................... 166
esxcli vsan storage list - unknown .................................... 168
vdq –qH:IsPDL ........................................................ 169
闪存设备出现故障时的观察结果 .......................................... 170
存储控制器出现故障时的观察结果 ........................................ 171
存储控制器更换 ........................................................ 172
驱动器报告错误时的预期行为 ............................................ 172
驱动器上闪烁的 LED ...................................................... 173
预测报告 - SMARTD ......................................................... 174
esxcli storage core device smart get .................................. 174
在 VIRTUAL SAN 上克隆时的注意事项 ......................................... 175
关于 VSANSPARSE 虚拟磁盘格式的说明 ........................................ 175
VIRTUAL SAN 存储的摘要检查表 .............................................. 176
12. 对 VIRTUAL SAN 升级进行故障排除 ...................................... 177
VIRTUAL SAN 升级 - 磁盘格式 V2 ............................................ 177
开始升级磁盘格式之前 .................................................. 177
磁盘格式升级前检查:vsan.disks_stats .................................. 178
磁盘格式升级:vsan.v2_ondisk_upgrade .................................. 179
vsan.v2_ondisk_upgrade pre-checks ..................................... 181
升级后磁盘格式检查:vsan.disks_limits ................................. 183
升级后磁盘格式检查:vsan.disks_stats .................................. 184
磁盘升级问题 – 交换对象不可访问......................................... 185
从 Virtual SAN 数据存储中移除孤立的 vswp 对象 ......................... 186
vsan.purge_inaccessible_vswp_objects .................................. 186
磁盘升级 – 资源不足,无法完成操作....................................... 187
群集中没有足够资源时的升级途径 ........................................ 188
13. 对 VASA 提供程序进行故障排除 ......................................... 189
VASA 提供程序简介 ....................................................... 189
VASA 提供程序操作分析 ................................................... 191
VIRTUAL SAN 提供程序的网络端口要求 ........................................ 192
测试是否已打开 VCENTER 和 ESXI 之间的端口 8080 ............................ 193
版本 5.5 中 VASA 提供程序的已知问题 ...................................... 194
14. VCENTER SERVER 和群集注意事项 ........................................ 196
警报和事件 .............................................................. 196
根据 Virtual SAN VOB 触发警报 ......................................... 196
Virtual SAN 的 VOB ID ................................................. 196
为 Virtual SAN 事件创建 vCenter Server 警报 ........................... 197
维护模式和 3 节点群集 ................................................... 199
多个磁盘组和 3 节点群集 ................................................. 200
支持纯计算节点 .......................................................... 200
已知问题:CLOM 遇到意外错误。尝试重新启动 CLOMD .......................... 201
V M w a r e 存 储 和 可 用 性 文 档 /7
诊断和故障排除参考手册 – Virtual SAN
处理 VCENTER SERVER 故障 ................................................... 202
vsan.recover_spbm ..................................................... 202
在 vCenter 备份和还原期间保留存储策略 ................................. 203
已知问题:迁移完成但未进入维护模式 ...................................... 204
vsan.disks_stats ...................................................... 204
vsan.disk_object_info ................................................. 204
vsan.object_info ...................................................... 205
vsan.object_status_report ............................................. 206
vsan.check_state --refresh-state ...................................... 206
15. VSAN OBSERVER 入门 ................................................... 207
什么是 VSAN OBSERVER? .................................................... 207
在不能访问 INTERNET 的情况下启动 VSAN OBSERVER ............................. 208
JavaScript 和 CSS 文件下载 ............................................ 208
VSAN Observer 文件夹结构 .............................................. 209
下载字体 .............................................................. 210
HTML 文件修改 ......................................................... 210
启动 VSAN OBSERVER ........................................................ 212
使用非默认端口启动 VSAN OBSERVER .......................................... 213
OpenSSL::X509::CertificateError:error getting time .................... 216
VSAN OBSERVER 的功能 ...................................................... 216
导航 VSAN OBSERVER – VSAN 客户端 ......................................... 217
什么是延迟? .......................................................... 217
什么是每秒 I/O 操作数 (IOPS)? ........................................ 218
什么是带宽? .......................................................... 218
什么是拥堵? .......................................................... 218
什么是未完成的 I/O (Outstanding I/O, OIO)? ........................... 218
什么是滞后时间标准偏差 (standard deviation, stddev)? ................. 219
“VSAN 客户端”视图有何功能? ......................................... 219
VSAN 客户端 – 全尺寸图 .................................................. 219
导航 VSAN OBSERVER –VSAN 磁盘 ............................................ 220
VSAN 磁盘 – 全尺寸图 .................................................... 221
导航 VSAN OBSERVER –VSAN 磁盘 (深入探索) ................................. 222
写入缓冲区填充 ........................................................ 223
逐出 .................................................................. 224
VSAN 磁盘 (深入探索) – 主机磁盘层汇总统计信息:完整图形 ................. 225
滞后时间、IOPS 和带宽 ................................................. 227
RC 命中率 ............................................................. 227
RC IOPS 细目 .......................................................... 231
逐出 .................................................................. 232
从失效的缓存行中读取的字节数/RC 的 PLOG 回调路径 ...................... 232
容量 .................................................................. 233
VSAN 磁盘 (深入探索) – 设备级别统计信息:完整图形 ....................... 234
写入缓冲区 ............................................................ 234
关于 LLOG 和 PLOG 的说明 .............................................. 234
VSAN 磁盘 (深入探索) – 设备级别统计信息:物理磁盘 ....................... 238
V M w a r e 存 储 和 可 用 性 文 档 /8