联想智能超算平台用户手册
V5.1.0
日期:2018/05/03
版本号:v1.0
目录
产品简介 ...............................................................................................................4
1.
名词解释 ...............................................................................................................4
1.1.
前提和假定 ...........................................................................................................5
1.2.
运行环境 ...............................................................................................................5
1.3.
使用说明 ...............................................................................................................5
2.
登录 ......................................................................................................................5
2.1.
登出 ......................................................................................................................6
2.2.
修改密码 ...............................................................................................................7
2.3.
查看集群资源及队列状态 ......................................................................................7
2.4.
上传作业程序 ........................................................................................................8
2.5.
上传容器镜像 ......................................................................................................12
2.6.
2.7.
提交作业 .............................................................................................................14
2.7.1. 提交 General 作业 ............................................................................................14
2.7.2. 提交 Common 作业 ...........................................................................................16
2.8.
提交 HPC 作业 ..................................................................................................19
2.8.1. 提交 MPI 作业 ...................................................................................................19
2.8.2. 提交 ANSYS 作业 .............................................................................................21
2.8.3. 提交 COMSOL 作业 ..........................................................................................24
2.9.
提交 AI 作业 ......................................................................................................27
2.9.1. 提交 TensorFlow 作业 ......................................................................................27
2.9.2. 提交 Caffe 作业 .................................................................................................31
2.9.3. 提交 Intel Caffe 作业 .........................................................................................33
2.9.4. 提交 MXNet 作业 ..............................................................................................34
2.9.5. 提交 Neon 作业 ..................................................................................................36
2.9.6. GPU 作业监控 ....................................................................................................38
2.10. 作业生命周期管理 ...............................................................................................40
2.10.1. 取消作业 .............................................................................................................40
2.10.2. 重新运行作业 ......................................................................................................41
2.10.3. 删除作业 .............................................................................................................42
2.11. 训练 AI 图像分类模型 ........................................................................................42
2.11.1. 导入图像数据集 ..................................................................................................43
2.11.2. 创建网络拓扑 ......................................................................................................47
2.11.3. 训练模型 .............................................................................................................50
2.11.4. 参数调整 .............................................................................................................54
2.11.5. 测试及导出模型 ..................................................................................................55
2.11.6. 管理预训练模型 ..................................................................................................57
2.12. 自定义模板 .........................................................................................................58
2.12.1. 创建自定义模板 ..................................................................................................59
2.12.2. 发布自定义模板 ..................................................................................................66
2.13. 专家模式 .............................................................................................................66
2.13.1. 命令行提交作业 ..................................................................................................69
2.13.2. 作业文件编写 ......................................................................................................70
2.14.
VNC 管理 ...........................................................................................................70
注意事项 .............................................................................................................71
3.
用户相关目录的绝对路径 ....................................................................................71
3.1.
3.2.
解决作业提交失败 ...............................................................................................71
VNC 查看或删除失败 .........................................................................................72
3.3.
3.4.
SLURM 命令参考 ...............................................................................................72
Caffe 网络拓扑定义参考 ....................................................................................72
3.5.
3.6.
GPU 监控数据来源 .............................................................................................72
前言
欢迎使用联想智能超算平台(以下简称 LiCO),LiCO 致力于提供简单、易用、丰富的高
性能计算及人工智能平台。本文档的读者需要具备一定的高性能计算、服务器集群的基础知
识,同时对高性能计算中的并行开发、作业调度、人工智能(以下简称 AI)有一定的了解。
1. 产品简介
联想智能超算平台(Lenovo intelligent Computing Orchestration 以下简称 LiCO)是联想基
于超性能计算(HPC)集群的一站式解决方案,其功能包括计算机集群管理,集群监控,
作业调度管理,集群用户管理,账户管理,文件系统管理等。通过 LiCO 可以实现对超算
(supercomputing) 集群资源的统一调度,同时支持 HPC 作业和 AI 作业。随着人工智能、
高性能计算和大数据的广泛应用,LiCO 已被越来越多的政府机关、大专院校、气象环保、
石油石化、机械制造和生命科学研究等单位使用。
LiCO 基于 B/S 架构设计,用户可以方便的通过网页来对集群进行全面而细致的管控。LiCO
系统的主要功能有:
1. 集群的管理、监控:提供机房直观的物理视图,集群中各节点 CPU、内存、硬盘、温
度、系统负载以及网络使用状况等详细监控数据,并能对各节点进行逻辑分组,方便统
一规划和管理;
2. 作业管理、监控:直观的作业运行结果和状态管理,并支持各种主流调度器,支持丰富
的作业类型(包括 AI 相关的作业如 Tensor Flow、Caffe 等);
3. 用户管理、计费:统一的界面支持本地和域用户的集成,支持用户充值、扣费,并设置
计费组、费率等;
4. 警告、报警:丰富的警报策略设置,并支持邮件、短信、微信等通知方式;
5. 报表:多种报表类型,如集群报表,报警报表,作业报表,计费组作业报表等;
6. 定制化:提供多样的定制化服务,如企业作业模板定制,报表定制,3D 机房定制化等
服务
用户也可以通过其他 Shell 终端工具登陆到集群的登陆节点进行命令行操作。
1.1. 名词解释
计算机集群:对包含管理节点、登录节点、计算节点等在内的服务器资源的统称。
作业:完成特定任务的命令序列。
作业状态:指作业在调度系统中的状态标识,包括等待、排队、保留、运行、挂起、结束等。
节点状态:指节点的状态标识,包括空闲、已占用、繁忙、停机等。
作业调度系统:也称作业调度器或调度器,指负责接收、分发、执行、记账作业的分布式
程序。
管理节点:指集群中运行作业调度,集群管理,用户计费等管理程序的服务器。
登录节点:指集群中用户可以通过 Linux 终端工具登录并进行操作的服务器。
计算节点:指集群中执行作业的服务器。
用户组:用户集合,系统可针对用户组来定义对集群资源的访问控制策略,属于同一个用户
组的所有用户可以访问相同的集群资源。
计费组:也称计费账户,通过账户来对集群使用者进行计费,结算等操作。一个计费账户可
由一个用户或多个用户共同使用。
1.2. 前提和假定
本文描述的内容主要针对基于作业调度器 Slurm 的情况,目前 LiCO 支持三种调度器:
Slurm,Torque 以及 LSF。下文中 Slurm 相关命令不适用于 Torque 或 LSF 等调度器,
如需使用,请参考对应文档。
1.3. 运行环境
集群服务器:
联想 Think System 服务器系列。
集群服务器支持的操作系统:
CentOS 6.8/7.3, Red Hat 6.8/7.3
客户端要求:
硬件:CPU 主频 2.0GHz 以上,内存大小 1GB 以上。
浏览器:推荐使用 Chrome 或 Firefox。
显示分辨率:不小于 1280 X 800
2. 使用说明
本文档主要介绍基于管理系统界面的基本操作方法和流程。对于命令行操作的方法可以参
考 2.13.1 命令行提交作业 以及 3.4 SLURM 命令参考。
2.1. 登录
打开浏览器输入集群登录节点的 IP 地址,如 https://10.220.112.21(客户端必须可以直接
访问集群登录节点)。可看到如下图所示的 LiCO 登录界面:
输入用户名和密码(初始用户名和密码一般由管理员创建并告知)后点击登录,可登录
LiCO 系统并看到如下图所示的主界面:
图 1 登录界面
图 2 用户主界面
2.2. 登出
LiCO 系统的用户登录会话令牌 (Token) 有自动延时功能,在正常使用系统的情况下并不
会出现登录超时现象,所以当不使用系统时,请按如下步骤登出系统。
点击界面右上角的 按钮可弹出如下图所示的用户信息框:
图 3 用户信息对话框
点击框内右上角 按钮并在确认登出,即可登出 LiCO 系统。
2.3. 修改密码
用户在登录系统后,可以按如下步骤自行修改登录密码。
点击界面右上角的 按钮可弹出如图 3 所示的用户信息框,点击框内上方 按钮可弹出
如下图所示的密码修改对话框:
图 4 修改密码对话框
输入当前密码及修改密码后点击提交,即可完成密码修改。
2.4. 查看集群资源及队列状态
点击位于主界面右侧菜单中的首页,可进入如下图所示的集群概况界面: