logo资料库

VSAN诊断和故障排除参考手册.pdf

第1页 / 共313页
第2页 / 共313页
第3页 / 共313页
第4页 / 共313页
第5页 / 共313页
第6页 / 共313页
第7页 / 共313页
第8页 / 共313页
资料共313页,剩余部分请下载后查看
诊断和故障排除指南 – Virtual SAN VMware® Virtual SAN 诊断和故障排除参考手册 Cormac Hogan 存储和可用性业务部门 VMware 版本 1.0/2015 年 3 月 V M w a r e 存 储 和 可 用 性 文 档 /1
诊断和故障排除参考手册 – Virtual SAN 1. 简介 ................................................................... 12 运行状况服务 ............................................................. 12 2. VMWARE VIRTUAL SAN (VSAN) 是什么? ..................................... 13 VIRTUAL SAN 的常见故障排除方案 ............................................. 14 本文结构 ................................................................. 15 3. VIRTUAL SAN 的故障排除工具 ............................................. 16 VSPHERE WEB CLIENT .......................................................... 16 ESXCLI ................................................................... 16 RUBY VSPHERE 控制台 - RVC .................................................. 17 VSAN OBSERVER .............................................................. 17 第三方工具 ............................................................... 17 故障排除工具摘要 ......................................................... 18 4.《VMWARE 兼容性指南》和 VIRTUAL SAN ..................................... 19 检查 VSPHERE 软件版本 ...................................................... 19 关于 VIRTUAL SAN READY NODE 的说明 .......................................... 20 关于 VMWARE EVO:RAIL 的说明 ............................................... 20 检查主机/服务器兼容性 .................................................... 21 esxcli hardware platform get ........................................... 21 通过 VCG 验证服务器支持 .................................................. 22 检查主机内存要求 ......................................................... 23 主机内存不足的症状 ..................................................... 23 许可证检查 ............................................................... 24 同类主机配置 ............................................................. 25 关于多个控制器和 SAS 扩展器的说明......................................... 25 第 1 部分 - 收集控制器/闪存设备信息 ....................................... 26 使用 vSphere Web Client UI 捕获设备信息 ................................ 26 使用 ESXCLI 捕获设备信息 ............................................... 27 esxcli storage core device list ........................................ 27 直通或 RAID-0 .......................................................... 29 esxcli core storage adapter list ....................................... 29 esxcfg-scsidevs –a .................................................... 30 处理多个控制器 ......................................................... 30 esxcli storage core path list .......................................... 30 esxcfg-scsidevs –A .................................................... 31 关于 SCSI 标识符的说明 ................................................. 32 显示磁盘驱动器信息 ..................................................... 32 esxcfg-scsidevs –c .................................................... 32 使用 ESXCLI 捕获存储控制器信息 ......................................... 33 esxcli hardware pci list ............................................... 33 vmkload_mod –s ........................................................ 35 esxcli system module get -m ............................................ 35 V M w a r e 存 储 和 可 用 性 文 档 / 2
诊断和故障排除参考手册 – Virtual SAN esxcli software vib list ............................................... 36 使用 fio-status(Fusion-IO 命令)检查设置 .............................. 37 第 2 部分 - 根据《VMWARE 兼容性指南》验证硬件支持 .......................... 38 收集的信息 ............................................................. 38 检查存储控制器/适配器的可支持性 ........................................ 39 了解 RAID-0 与直通 ..................................................... 40 检查存储控制器/适配器驱动程序和固件 .................................... 41 关于 OEM ESXi ISO 映像的说明 ........................................... 42 检查 Fusion-IO 闪存设备:型号 .......................................... 43 检查 Fusion-IO 闪存设备:固件 .......................................... 45 检查 Fusion-IO 闪存设备:驱动程序 ...................................... 46 演示结果 ............................................................... 47 版本 5.5 中的闪存注意事项 ................................................ 48 版本 6.0 中的闪存注意事项 ................................................ 49 全闪存设备的注意事项 ..................................................... 49 磁盘注意事项 ............................................................. 50 外部存储机箱的注意事项 ................................................... 50 处理器电源管理的注意事项 ................................................. 50 VCG 查阅总结 ............................................................. 51 5. VIRTUAL SAN 软件组件 ................................................... 52 本地日志的结构化对象管理 - LSOM ........................................ 52 分布式对象管理器 - DOM ................................................. 52 群集级别对象管理器 - CLOM .............................................. 52 群集监控、成员资格和目录服务 - CMMDS ................................... 53 可靠数据报传输 - RDT ................................................... 53 6. 了解可用性和可访问性 ................................................... 54 对象和组件 ............................................................... 54 什么是副本? ............................................................. 55 什么是证明? ............................................................. 55 故障:“不存在”与“已降级” ............................................. 56 对象合规性状态:合规与不合规 ............................................. 59 对象操作状况:正常与不正常 ............................................... 60 虚拟机可访问性:不可访问与孤立 ........................................... 61 故障处理 – VIRTUAL SAN 故障安全机制 ....................................... 61 遇到多次故障时的虚拟机行为 ............................................... 61 虚拟机已打开电源且虚拟机主页命名空间对象不可访问 ....................... 62 虚拟机已打开电源且磁盘对象不可访问 ..................................... 62 7. 了解预期的故障行为 ..................................................... 63 磁盘从 ESXI 主机中意外拔出 ................................................ 63 预期行为: ............................................................. 63 预期行为 – UI 视图和日志条目: ........................................ 64 闪存缓存 SSD 从 ESXI 主机中意外拔出 ....................................... 65 预期行为: ............................................................. 65 当磁盘出现故障时会发生什么情况? ......................................... 66 V M w a r e 存 储 和 可 用 性 文 档 /3
诊断和故障排除参考手册 – Virtual SAN 预期行为: ............................................................. 66 当缓存层 SSD 出现故障时会发生什么情况? ................................... 67 预期行为: ............................................................. 67 将新磁盘放在 ESXI 主机中 .................................................. 68 预期行为: ............................................................. 68 将新缓存层 SSD 放在 ESXI 主机中 ........................................... 68 预期行为: ............................................................. 68 当服务器出现故障或重新引导时会发生什么情况? ............................. 70 断开网络链路时会发生什么情况? ........................................... 71 整个群集网络出现故障时会发生什么情况? ................................... 72 存储 I/O 控制器出现故障时会发生什么情况? ................................. 72 处理多个故障 ............................................................. 73 8. RVC 入门 ............................................................... 74 RVC 和 VSAN OBSERVER 简介 .................................................. 74 RVC 部署建议 ............................................................. 74 从 VCENTER SERVER APPLIANCE 启动 RVC.......................................... 74 从 WINDOWS VCENTER SERVER 启动 RVC ........................................... 78 9. 导航 RVC ............................................................... 81 导航 RVC 的示例 .......................................................... 81 使用 RVC 显示适配器信息 .................................................. 85 vsan.disks_info –show-adapters ........................................ 85 使用 RVC 验证 VIRTUAL SAN 功能 ............................................. 85 vsan.cluster_info ...................................................... 86 关于故障域的说明 ....................................................... 87 vsan.check_state ....................................................... 88 vsan.check_limits ...................................................... 90 关于 RDT 关联/插槽/客户端/所有者的简要说明 ............................. 94 关于重新访问的磁盘组件的简要说明 ....................................... 94 了解组件和组件计数 ..................................................... 96 通过 vSphere Web Client 检查组件 ....................................... 96 vsan.vm_object_info .................................................... 98 vsan.object_info ....................................................... 99 vsan.whatif_host_failures ............................................. 100 10. 对 VIRTUAL SAN 网络进行故障排除 ...................................... 101 VIRTUAL SAN 网络简介 ...................................................... 102 VIRTUAL SAN 网络要求 ...................................................... 103 物理网卡 (NIC) 要求 ................................................... 103 Virtual SAN 流量 – vmknic 要求 ....................................... 103 虚拟交换机要求 ........................................................ 103 MTU 与巨帧 ............................................................ 104 多播流量要求 .......................................................... 104 多播流量的 IGMP 侦听和 IGMP 查询器 .................................... 105 使用 NIOC 和 VDS 在 Virtual SAN 流量上设置服务质量 .................... 106 VIRTUAL SAN 和 VSPHERE HA 的网络依赖关系 ................................... 107 V M w a r e 存 储 和 可 用 性 文 档 /4
诊断和故障排除参考手册 – Virtual SAN 更改 vSphere HA 网络 .................................................. 107 检查 VIRTUAL SAN 网络是否正常运行 ......................................... 109 esxcli vsan 网络列表 .................................................. 109 esxcli network ip interface list ...................................... 110 esxcli network ip interface ipv4 get –i vmk2 ......................... 110 vmkping ............................................................... 111 vsan.cluster_info ..................................................... 111 esxcli network ip neighbor list ....................................... 112 esxcli network diag ping .............................................. 112 检查多播设置 ............................................................ 113 tcpdump-uw –i vmk2 udp port 23451 –v ................................ 113 tcpdump-uw –i vmk2 igmp .............................................. 114 存在多个 VIRTUAL SAN 群集时更改多播设置 ................................... 115 esxcli vsan 网络列表 .................................................. 115 esxcli vsan network ipv4 set .......................................... 115 网络端口和 ESXI 防火墙 ................................................... 117 检查 VIRTUAL SAN 网络的性能 ............................................... 118 iperf(对于 Virtual SAN 5.5) ......................................... 118 iperf(对于 Virtual SAN 6.0) ......................................... 118 检查 VIRTUAL SAN 网络限制 ................................................. 119 vsan.check_limits ..................................................... 119 网络状态:检测到配置错误 ................................................ 121 识别已分区的群集 ........................................................ 121 esxcli vsan 群集获取 .................................................. 122 vsan.cluster_info ..................................................... 123 对多播配置问题进行排除故障 .............................................. 124 多播配置错误问题的症状 ................................................ 124 对 MTU/巨帧不匹配进行故障排除 ........................................... 125 esxcli network ip interface list ...................................... 125 esxcli network vswitch standard list .................................. 125 MTU 配置错误的症状:无法完成文件创建 .................................. 127 验证子网/VLAN 设置 ...................................................... 128 esxcli network ip interface ipv4 get –i vmk2 ......................... 128 刷新网络配置 ............................................................ 129 vsan.reapply_vsan_vmknic_config ....................................... 129 使用 LACP FOR VSAN 网络的注意事项 ........................................ 129 通过第 3 层网络路由 VIRTUAL SAN 流量 ...................................... 129 物理网络交换机的配置和流控制 ............................................ 130 ethtool ............................................................... 130 物理网络交换机的功能互操作性 ............................................ 130 VIRTUAL SAN 网络的检查表摘要 .............................................. 131 11. 对 VIRTUAL SAN 存储进行故障排除 ...................................... 132 重新访问的 VIRTUAL SAN 对象和组件 ......................................... 132 对象布局和 RAID 树 .................................................... 133 VIRTUAL SAN 存储要求 ...................................................... 135 V M w a r e 存 储 和 可 用 性 文 档 /5
诊断和故障排除参考手册 – Virtual SAN 直通模式与 RAID-0 模式 ................................................ 135 检查存储 I/O 控制器队列深度 ........................................... 136 用于检查控制器队列深度的 esxtop ....................................... 136 esxcfg-info –s | grep “==+SCSI Interface” –A 18 ................... 137 配置 VIRTUAL SAN 存储 ..................................................... 139 存储 I/O 控制器缓存 ................................................... 139 关于 HP SSD 智能路径观察结果的说明 .................................... 139 关于全闪存容量层的说明 ................................................ 140 标识属于 RAID-0 卷的 SSD ................................................. 141 VIRTUAL SAN 存储限制 ...................................................... 142 vsan.check_limits ..................................................... 142 验证 VIRTUAL SAN 存储操作 – ESX CLI ...................................... 144 esxcli core storage device list ....................................... 144 Is SSD 和 Is Local .................................................... 145 esxcli vsan storage list .............................................. 147 vdq ................................................................... 147 vdq - IsCapacityFlash ................................................. 148 esxcli storage core device stats get .................................. 149 验证 VIRTUAL SAN 存储操作 – RVC .......................................... 150 vsan.check_state ...................................................... 150 vsan.disks_stats ...................................................... 150 VIRTUAL SAN 数据存储空间管理 .............................................. 151 维护模式 .............................................................. 151 SSD、磁盘或主机故障 ................................................... 152 小型磁盘驱动器容量的注意事项 .......................................... 152 超大型 VMDK 的注意事项 ................................................ 152 动态更改虚拟机存储策略 .................................................. 153 使用无法实现的策略置备 .................................................. 153 达到阈值时会发生什么情况? ............................................ 154 VIRTUAL SAN 上的组件分布 .................................................. 154 使用 RVC 检查磁盘使用情况分布 – vsan.disks_stats ..................... 155 使用 RVC 检查组件分布 – vsan.disks_limits ............................ 155 使用 RVC 主动平衡组件分布 ............................................... 156 vsan.proactive_rebalance .............................................. 156 VIRTUAL SAN 故障修复 – 重新构建组件 ...................................... 158 vsan.resync_dashboard ................................................. 159 vsan.vm_object_info ................................................... 159 vsan.resync_dashboard ................................................. 160 测试 VIRTUAL SAN 功能 - 部署虚拟机 ........................................ 161 diagnostics.vm_create ................................................. 161 diagnostics.vm_create failure – clomd not running .................... 161 常见存储问题和解决方案 .................................................. 163 Virtual SAN 正在声明磁盘,但容量不正确 ................................ 163 Virtual SAN 不声明磁盘 - 现有分区信息 ................................. 163 esxcli vsan storage remove ............................................ 164 V M w a r e 存 储 和 可 用 性 文 档 /6
诊断和故障排除参考手册 – Virtual SAN partedUtil ............................................................ 164 Virtual SAN 不声明磁盘 - Is Local:false ............................... 164 VIRTUAL SAN 存储设备故障观察结果 .......................................... 166 磁盘出现故障/以可控方式移除时的观察结果 ............................... 166 esxcli vsan storage list - unknown .................................... 168 vdq –qH:IsPDL ........................................................ 169 闪存设备出现故障时的观察结果 .......................................... 170 存储控制器出现故障时的观察结果 ........................................ 171 存储控制器更换 ........................................................ 172 驱动器报告错误时的预期行为 ............................................ 172 驱动器上闪烁的 LED ...................................................... 173 预测报告 - SMARTD ......................................................... 174 esxcli storage core device smart get .................................. 174 在 VIRTUAL SAN 上克隆时的注意事项 ......................................... 175 关于 VSANSPARSE 虚拟磁盘格式的说明 ........................................ 175 VIRTUAL SAN 存储的摘要检查表 .............................................. 176 12. 对 VIRTUAL SAN 升级进行故障排除 ...................................... 177 VIRTUAL SAN 升级 - 磁盘格式 V2 ............................................ 177 开始升级磁盘格式之前 .................................................. 177 磁盘格式升级前检查:vsan.disks_stats .................................. 178 磁盘格式升级:vsan.v2_ondisk_upgrade .................................. 179 vsan.v2_ondisk_upgrade pre-checks ..................................... 181 升级后磁盘格式检查:vsan.disks_limits ................................. 183 升级后磁盘格式检查:vsan.disks_stats .................................. 184 磁盘升级问题 – 交换对象不可访问......................................... 185 从 Virtual SAN 数据存储中移除孤立的 vswp 对象 ......................... 186 vsan.purge_inaccessible_vswp_objects .................................. 186 磁盘升级 – 资源不足,无法完成操作....................................... 187 群集中没有足够资源时的升级途径 ........................................ 188 13. 对 VASA 提供程序进行故障排除 ......................................... 189 VASA 提供程序简介 ....................................................... 189 VASA 提供程序操作分析 ................................................... 191 VIRTUAL SAN 提供程序的网络端口要求 ........................................ 192 测试是否已打开 VCENTER 和 ESXI 之间的端口 8080 ............................ 193 版本 5.5 中 VASA 提供程序的已知问题 ...................................... 194 14. VCENTER SERVER 和群集注意事项 ........................................ 196 警报和事件 .............................................................. 196 根据 Virtual SAN VOB 触发警报 ......................................... 196 Virtual SAN 的 VOB ID ................................................. 196 为 Virtual SAN 事件创建 vCenter Server 警报 ........................... 197 维护模式和 3 节点群集 ................................................... 199 多个磁盘组和 3 节点群集 ................................................. 200 支持纯计算节点 .......................................................... 200 已知问题:CLOM 遇到意外错误。尝试重新启动 CLOMD .......................... 201 V M w a r e 存 储 和 可 用 性 文 档 /7
诊断和故障排除参考手册 – Virtual SAN 处理 VCENTER SERVER 故障 ................................................... 202 vsan.recover_spbm ..................................................... 202 在 vCenter 备份和还原期间保留存储策略 ................................. 203 已知问题:迁移完成但未进入维护模式 ...................................... 204 vsan.disks_stats ...................................................... 204 vsan.disk_object_info ................................................. 204 vsan.object_info ...................................................... 205 vsan.object_status_report ............................................. 206 vsan.check_state --refresh-state ...................................... 206 15. VSAN OBSERVER 入门 ................................................... 207 什么是 VSAN OBSERVER? .................................................... 207 在不能访问 INTERNET 的情况下启动 VSAN OBSERVER ............................. 208 JavaScript 和 CSS 文件下载 ............................................ 208 VSAN Observer 文件夹结构 .............................................. 209 下载字体 .............................................................. 210 HTML 文件修改 ......................................................... 210 启动 VSAN OBSERVER ........................................................ 212 使用非默认端口启动 VSAN OBSERVER .......................................... 213 OpenSSL::X509::CertificateError:error getting time .................... 216 VSAN OBSERVER 的功能 ...................................................... 216 导航 VSAN OBSERVER – VSAN 客户端 ......................................... 217 什么是延迟? .......................................................... 217 什么是每秒 I/O 操作数 (IOPS)? ........................................ 218 什么是带宽? .......................................................... 218 什么是拥堵? .......................................................... 218 什么是未完成的 I/O (Outstanding I/O, OIO)? ........................... 218 什么是滞后时间标准偏差 (standard deviation, stddev)? ................. 219 “VSAN 客户端”视图有何功能? ......................................... 219 VSAN 客户端 – 全尺寸图 .................................................. 219 导航 VSAN OBSERVER –VSAN 磁盘 ............................................ 220 VSAN 磁盘 – 全尺寸图 .................................................... 221 导航 VSAN OBSERVER –VSAN 磁盘 (深入探索) ................................. 222 写入缓冲区填充 ........................................................ 223 逐出 .................................................................. 224 VSAN 磁盘 (深入探索) – 主机磁盘层汇总统计信息:完整图形 ................. 225 滞后时间、IOPS 和带宽 ................................................. 227 RC 命中率 ............................................................. 227 RC IOPS 细目 .......................................................... 231 逐出 .................................................................. 232 从失效的缓存行中读取的字节数/RC 的 PLOG 回调路径 ...................... 232 容量 .................................................................. 233 VSAN 磁盘 (深入探索) – 设备级别统计信息:完整图形 ....................... 234 写入缓冲区 ............................................................ 234 关于 LLOG 和 PLOG 的说明 .............................................. 234 VSAN 磁盘 (深入探索) – 设备级别统计信息:物理磁盘 ....................... 238 V M w a r e 存 储 和 可 用 性 文 档 /8
分享到:
收藏