IBM Spectrum Scale概述
IBM Spectrum Scale的优势
基本的IBM Spectrum Scale结构
IBM Spectrum Scale集群配置
GPFS体系结构
特殊管理功能
在GPFS文件系统中使用磁盘存储和文件结构
GPFS和内存
GPFS和网络通信
应用程序和用户与GPFS的交互
NSD磁盘发现
故障恢复处理
集群配置数据文件
GPFS备份数据
IBM Spectrum Scale产品版本
IBM Spectrum Scale标准版
IBM Spectrum Scale高级版
IBM Spectrum Scale数据管理版
IBM Spectrum Scale许可证指定
基于容量的许可
IBM Spectrum存储套件
IBM Spectrum Scale概述
IBM Spectrum Scale是一个集群文件系统,可以从多个节点提供对单个文件系统或一
组文件系统的并发访问。 节点可以是SAN连接,网络连接,SAN连接和网络连接的混合,
或无共享群集配置。 这样可以高性能地访问这一通用数据集,以支持横向扩展解决方案或
提供高可用性平台。
IBM Spectrum Scale具有许多通用数据访问以外的功能,包括数据复制,基于策略的
存储管理和多站点操作。 您可以创建AIX节点,Linux节点,Windows服务器节点或三者的
混合集群。 IBM Spectrum Scale可以在虚拟化实例上运行,在环境中提供通用数据访问,
利用逻辑分区或其他虚拟机管理程序。多个IBM Spectrum Scale集群可以在一个位置内或
跨广域网(WAN)连接共享数据。
IBM Spectrum Scale的优势
IBM Spectrum Scale提供全局命名空间,IBM Spectrum Scale集群之间的共享文件
系统访问,来自多个节点的同时文件访问,通过复制实现高可恢复性和数据可用性,在安装
文件系统时进行更改的能力,以及即使在大环境也可以简化的管理。
IBM Spectrum Scale集群之间的共享文件系统访问
IBM Spectrum Scale允许您在一个位置内或跨广域网的不同集群之间共享数据。
尽管IBM Spectrum Scale集群是独立管理的,但IBM Spectrum Scale还通过远程集
群挂载共享数据访问。 这被称为多集群环境。 当将多个集群配置为访问同一IBM
Spectrum Scale文件系统时,可以使用IBM Global Security Kit(GSKit)对所有网络连接
进行身份验证和检查授权。
GSKit可用于身份验证和加密群集之间传递的数据。 如果使用GSKit密码,则会对数据
进行加密以进行传输。
多集群环境具有以下功能:
托管文件系统的集群可以为授权挂载特定文件系统的每个集群指定不同的安全级
别。
更改安全密钥时,本地群集可以保持活动状态。 由于各种原因,定期更换密钥
是必要的:
- 密钥的数量应保持很小,以促进良好的性能。
- 密钥更改阻止使用或继续使用已损坏的密钥。
- 作为一项政策,一些机构要求定期更改安全密钥。
IBM Spectrum Scale以类似于OpenSSH的基于主机的身份验证机制的方式使用公钥
身份验证。 每个集群都有一对用于标识集群的密钥。 此外,每个群集还有一个
authorized_keys列表。 authorized_keys列表中的每一行都包含一个远程集群的公钥以及
该集群有权挂载的文件系统列表。 有关多集群(远程挂载)文件系统访问的详细信息,请
参阅“I
”中的“
”。
有关相关信息,请参阅“IBM Spectrum Scale:管理指南”中的“
”。
改进的系统性能
使用GPFS文件系统可以通过多种方式提高系统性能。
允许集群中所有节点上的多个进程或应用程序同时访问相同的文件。 也就是
说,它允许来自多个节点的并发读写。
通过在多个磁盘上分散读和写来增加文件系统的聚合带宽。
均衡所有磁盘的负载,以最大限度地提高其综合吞吐量,从而消除存储热点。
支持非常大的文件和文件系统大小。
允许从多个节点并发读写。
提供复杂的令牌管理,可以处理对集群,文件系统和文件资源的快速细粒度访
问。
允许为GPFS守护程序通信指定多个网络,并允许在集群中使用GPFS管理命令。
要实现单个大文件的高吞吐量,需要跨多个磁盘和多个磁盘控制器对数据进行条带化处
理。GPFS不是依赖于单独的卷管理层中的条带化,而是在文件系统中实现条带化。管理自
己的条带为GPFS提供了实现容错和跨适配器、存储控制器和磁盘平衡负载所需的控制。
GPFS中的大文件被分成大小相等的块,连续的块以循环的方式放置在不同的磁盘上。
GPFS会自动检测常见的数据访问模式,并相应地自动开始预取数据。这种预取和缓
存提供了高吞吐量和快速响应时间。一些公认的I/O模式包括顺序访问模式、反向顺序访问
模式和各种形式的跨步访问模式。
文件一致性
B
M
S
p
e
c
t
r
u
m
S
c
a
l
e
:
管
理
指
南
访
问
远
程
G
P
F
S
文
件
系
统
活
动
文
件
管
理
IBM Spectrum Scale通过利用复杂的令牌管理,提供对集群中客户端的并发访问。 这
提供了对IBM Spectrum Scale功能,文件系统和文件资源的并发和详细访问。
有关更多信息,请参见“GPFS体系结构”。
增强的数据可用性
GPFS提供多种功能,可提高文件系统的可靠性。 这包括自动功能如文件系统日志记
录,和可配置功能如启动时智能安装文件系统,以提供灵活的同步复制工具。
GPFS允许您将存储硬件组织到
中。 失效组被定义为一组磁盘,这些磁盘共享一
个共同的故障点,可能导致它们全部同时不可用。 失效组由系统管理员定义,因此在定义
磁盘时需要小心,以确保正确的故障组隔离。 与GPFS的复制功能结合使用时,如果一组磁
盘发生故障,则创建多个失效组可提高文件可用性。 GPFS中的复制可确保在不同失效组的
磁盘上存在每个复制数据块和元数据的副本。 在这种情况下,如果一组磁盘不可用,GPFS
将转移到另一个失效组中的复制副本。
在配置期间,您可以分配复制系数以指示要存储的数据和元数据的总份数。 目前,最
大复制系数为3.复制允许您为每个文件设置不同级别的保护,或为整个文件系统设置一个级
别。 由于复制使用额外的磁盘空间并需要额外的写入时间,因此应考虑复制对应用程序的
影响,尤其是在通过WAN进行复制时。 为了减少数据复制所涉及的开销,您还可以选择仅
复制元数据,以提供额外的文件系统保护。 有关GPFS复制的详细信息,请参阅“文件系统
复制参数”。
GPFS是一个日志文件系统。 它为每个文件系统创建单独的日志。 如果有多个失效组,
GPFS会自动复制恢复日志。 与基于地理的复制结合使用时,可提供灾难恢复功能。 有关失
效组的更多信息,请参见“网络共享磁盘(NSD)创建注意事项”。有关使用GPFS进行灾
难恢复的详细信息,请参阅“
”中的“
”。
创建文件系统后,可以将其配置为在启动GPFS守护程序时进行挂载。此功能可确保只
要系统和磁盘启动,文件系统就可用。在GPFS群集之间使用共享文件系统访问时,为了减
少总体GPFS控制流量,您可能决定在首次访问时挂载文件系统。这可以通过使用具有-A
automount选项的mmremotefs命令或mmchfs命令完成。通过使用自动挂载而不是在
GPFS启动时挂载,可以减少GPFS挂载流量。自动挂载仅在应用程序或用户首次使用文件系
统时产生额外的控制流量。另一方面,在GPFS启动时挂载会在每次GPFS启动时产生额外的
控制流量。因此,通过使用自动挂载可以更好地一次启动数百个节点。但是,通过网络文件
系统(NFS)挂载导出文件系统时,在启动GPFS时挂载文件系统可能很有用。
增强的系统灵活性
使用GPFS,您的系统资源不会被冻结。 您可以在挂载文件系统时添加或删除磁盘。
失
效
组
I
B
M
S
p
e
c
t
r
u
m
S
c
a
l
e
:
管
理
指
南
数
据
镜
像
和
复
制
当时机成熟且系统需求较低时,您可以在当前配置的所有磁盘上重新平衡文件系统。
通过QoS功能,您可以防止I/O密集型,长时间运行的管理命令控制文件系统性能,并
显著延迟其它任务。
您还可以添加或删除节点,而不必在所有节点上停止并重新启动GPFS守护进程。
注意:GPFS允许大量仲裁节点,以便于维护仲裁和继续集群操作。 GPFS还允许使用仲
裁磁盘配置来进一步增强群集可用性。 有关其他信息,请参阅“仲裁”。
如果与磁盘的物理连接中断,GPFS将动态切换对服务器节点的磁盘访问,并继续通过
NSD服务器节点提供数据。当GPFS发现路径已修复时,它会返回到本地磁盘访问。
根据您的应用程序、硬件和工作负载,为您的系统配置了GPFS之后,您可以重新配置
GPFS以提高吞吐量。您可以为当前的应用程序和用户设置GPFS环境,确保将来可以在不危
害数据的情况下进行扩展。GPFS的容量可以随着硬件的扩展而增长。
简化的存储管理
IBM Spectrum Scale可以通过强大的策略驱动、自动分层存储管理帮助您实现信息生
命周期管理(ILM)。
IBM Spectrum Scale基于以下定义和用法提供存储管理:
存储池
策略
文件集
存储池
供了一种在文件系统中对存储进行分区的方法。 在规划如何配置存储时,请考虑以下因素:
是具有类似属性的磁盘或RAID的集合,这些磁盘或RAID作为一个组一起管理。 存储池提
通过将存储成本与数据值相匹配来提高性价比
通过以下方式提高性能:
-- 减少高级存储的争用
-- 减少较慢设备的影响
通过以下方式提高可靠性:
-- 基于需要的复制
-- 更好的失效遏制
策略
根据定义的
放置策略
创建文件时将文件放在特定存储池中
将文件分配给存储池。 策略规定:
存
储
池
策
略
文件管理策略
将文件从一个存储池迁移到另一个存储池
根据文件特征删除文件
更改文件的复制状态
对元数据扫描和文件列表创建做快照
压缩静态文件
文件集
提供了一种分区文件系统的方法,并允许以比整个文件系统更精细的粒度进
行管理操作。 例如,文件集允许您:
在文件集级别定义数据块和inode配额
将策略规则应用于特定文件集
在文件集级别创建快照
有关存储池,文件集和策略的更多信息,请参阅
中的“
。
简化的管理
GPFS提供了许多标准文件系统接口,允许大多数应用程序无需修改即可执行。
操作系统实用程序补充了GPFS实用程序。 也就是说,您可以继续使用常用于普通文件
操作的命令。 有关更多信息,请参阅“
GPFS管理命令在名称和功能上与UNIX和Linux文件系统命令相似,但有一个重要区
别:GPFS命令在多个节点上操作。一个GPFS命令可以在整个集群中执行管理功能。请参
阅“I
GPFS命令将配置和文件系统信息保存在一个或多个文件中。这些文件统称为GPFS集群
配置数据文件。GPFS在整个集群中保持其配置文件的一致性,这提供了准确和一致的确认
信息(参见“
中记录的各个命令。
”。
命令和编程参考
”)。
基本的IBM Spectrum Scale结构
IBM Spectrum Scale是在一个或多个节点上定义的集群文件系统。 在集群中的每个节
点上,IBM Spectrum Scale包含三个基本组件:管理命令,内核扩展和多线程守护程序。
有关更多信息,请参见下列主题:
1. “GPFS管理命令”
2. “GPFS内核扩展
3. “GPFS守护进程”
文
件
集
“
I
B
M
S
p
e
c
t
r
u
m
S
c
a
l
e
:
管
理
指
南
”
I
B
M
S
p
e
c
t
r
u
m
S
c
a
l
e
的
信
息
生
命
周
期
管
理
”
G
P
F
S
应
用
程
序
的
注
意
事
项
B
M
S
p
e
c
t
r
u
m
S
c
a
l
e
:
”
集
群
配
置
数
据
文
件
4. 对于使用Linux操作系统运行的集群中的节点,“GPFS开源可移植性层”。
有关IBM Spectrum Scale的详细讨论,请参阅“
”。
GPFS管理命令
GPFS管理命令是控制GPFS操作和配置的脚本和程序。
默认情况下,GPFS命令可以从集群中的任何节点执行。如果需要在集群中的另一个节点
上执行任务,该命令会自动将请求重定向到适当的节点以执行。为了使管理命令能够操作,
需要在节点之间进行无密码的远程Shell通信。
有关更多信息,请参阅
”中的“
”主题。
GPFS内核扩展
GPFS内核扩展提供了与操作系统vode和虚拟文件系统(VFS)层的接口,以便将GPFS注
册为本机文件系统。
从结构上讲,应用程序对操作系统进行文件系统调用,而操作系统则将它们呈现给
GPFS文件系统内核扩展。GPFS使用操作系统的标准机制。通过这种方式,GPFS在应用程
序中似乎只是另一个文件系统。GPFS内核扩展将使用系统中已经可用的资源来满足这些请
求,或者向GPFS守护进程发送消息以完成请求。
GPFS守护进程
GPFS守护程序为GPFS执行所有I/O操作和缓冲区管理。 这包括顺序读的预读和未指定
为同步的所有写入的回写。 I/O操作受GPFS令牌管理保护,可确保集群中所有节点之间的
数据一致性。
守护进程是一个多线程进程,具有一些专用于特定功能的线程。需要优先关注的服务
的专用线程不会被日常工作使用或阻塞。除了管理本地I/O之外,守护进程还与其他节点上
的守护进程实例通信,以协调相同数据结构的配置更改、恢复和并行更新。在守护进程中执
行的特定功能包括:
1. 将磁盘空间分配给新文件和新扩展文件。 这是与文件系统管理器协调完成的。
2. 目录管理包括创建新目录,在现有目录中插入和删除条目,以及搜索需要I/O的目
录。
3. 分配适当的锁以保护数据和元数据的完整性。 影响可从多个节点访问的数据的锁
需要与令牌管理功能进行交互。
4. 在守护进程的线程上启动实际的磁盘I/O。
5. 与文件系统管理器一起管理用户安全性和配额。
G
P
F
S
体
系
结
构
“
I
B
M
S
p
e
c
t
r
u
m
S
c
a
l
e
:
管
理
指
南
管
理
G
P
F
S
文
件
系
统
的
要
求
GPFS网络共享磁盘(NSD)组件为在不能直接访问磁盘的节点上运行的应用程序提供了
一种命名集群磁盘和高速访问数据的方法。
集群中的NSD可以物理地连接到所有节点,或者通过提供虚拟连接的NSD服务器提供
数据。您可以为每个NSD指定最多八个NSD服务器。如果一台服务器发生故障,列表中的
下一台服务器将从失败的节点中接管控制权。
对于给定的NSD,它的每个NSD服务器必须具有对同一NSD的物理访问权限。但是,
不同的服务器可以为不同的非交叉客户端集提供I/O服务。GPFS中的现有子网功能确定哪个
NSD服务器应该为特定的GPFS客户端提供服务。
注意:GPFS假设子网中的节点是使用高速网络连接的.。有关子网配置的其他信息,请
参阅“
”。
GPFS通过从GPFS守护进程调用的一系列命令来确定节点是否具有到底层NSD的物理
或虚拟连接。这种确定(称为NSD
注意:要手动引发此
阅“
这是NSD发现期间使用的默认访问顺序:
操作,请使用mmnsddiscover命令。 有关更多信息,请参
)发生在GPFS初始启动时和挂载文件系统时。
”中的“
”。
1. 用于SAN、SCSI、IDE或DASD磁盘的本地块设备接口
2. NSD服务器
可以使用useNSDserver挂载选项更改此顺序。
建议您始终为磁盘定义NSD服务器。 在已定义NSD服务器的SAN配置中,如果物理连
接断开,GPFS将动态切换到服务器节点并继续提供数据。 当GPFS发现路径已修复时,它
将回退到本地磁盘访问。 这是默认行为,可以使用useNSDserver文件系统挂载选项进行
更改。
有关详细信息,请参阅“
”和“
”
GPFS开源可移植层
在Linux平台上,GPFS使用一个可加载的内核模块,使GPFS守护进程能够与Linux内核
交互。
源代码是为可移植层提供的,因此GPFS可移植性可以构建并安装在各种Linux内核版本和配
置上。
为
G
P
F
S
节
点
使
用
公
共
和
私
有
I
P
地
址
发
现
发
现
I
B
M
S
p
e
c
t
r
u
m
S
c
a
l
e
:
命
令
和
编
程
参
考
m
m
n
s
d
d
i
s
c
o
v
e
r
命
令
磁
盘
注
意
事
项
N
S
D
磁
盘
发
现