联想智能超算平台用户手册
V5.1.0
日期:2018/05/03
版本号:v1.0
目录 
产品简介 ...............................................................................................................4 
1. 
名词解释 ...............................................................................................................4 
1.1. 
前提和假定 ...........................................................................................................5 
1.2. 
运行环境 ...............................................................................................................5 
1.3. 
使用说明 ...............................................................................................................5 
2. 
登录 ......................................................................................................................5 
2.1. 
登出 ......................................................................................................................6 
2.2. 
修改密码 ...............................................................................................................7 
2.3. 
查看集群资源及队列状态 ......................................................................................7 
2.4. 
上传作业程序 ........................................................................................................8 
2.5. 
上传容器镜像 ......................................................................................................12 
2.6. 
2.7. 
提交作业 .............................................................................................................14 
2.7.1.  提交  General  作业 ............................................................................................14 
2.7.2.  提交  Common  作业 ...........................................................................................16 
2.8. 
提交  HPC  作业 ..................................................................................................19 
2.8.1.  提交  MPI  作业 ...................................................................................................19 
2.8.2.  提交  ANSYS  作业 .............................................................................................21 
2.8.3.  提交  COMSOL  作业 ..........................................................................................24 
2.9. 
提交  AI  作业 ......................................................................................................27 
2.9.1.  提交  TensorFlow  作业 ......................................................................................27 
2.9.2.  提交  Caffe  作业 .................................................................................................31 
2.9.3.  提交  Intel Caffe  作业 .........................................................................................33 
2.9.4.  提交  MXNet  作业 ..............................................................................................34 
2.9.5.  提交 Neon 作业 ..................................................................................................36 
2.9.6.  GPU 作业监控 ....................................................................................................38 
2.10.  作业生命周期管理 ...............................................................................................40 
2.10.1.  取消作业 .............................................................................................................40 
2.10.2.  重新运行作业 ......................................................................................................41 
2.10.3.  删除作业 .............................................................................................................42 
2.11.  训练  AI  图像分类模型 ........................................................................................42 
2.11.1.  导入图像数据集 ..................................................................................................43 
2.11.2.  创建网络拓扑 ......................................................................................................47 
2.11.3.  训练模型 .............................................................................................................50 
2.11.4.  参数调整 .............................................................................................................54 
2.11.5.  测试及导出模型 ..................................................................................................55 
2.11.6.  管理预训练模型 ..................................................................................................57 
2.12.  自定义模板 .........................................................................................................58 
2.12.1.  创建自定义模板 ..................................................................................................59 
2.12.2.  发布自定义模板 ..................................................................................................66 
2.13.  专家模式 .............................................................................................................66 
2.13.1.  命令行提交作业 ..................................................................................................69 
2.13.2.  作业文件编写 ......................................................................................................70 
2.14. 
VNC  管理 ...........................................................................................................70 
注意事项 .............................................................................................................71 
3. 
用户相关目录的绝对路径 ....................................................................................71 
3.1. 
3.2. 
解决作业提交失败 ...............................................................................................71 
VNC  查看或删除失败 .........................................................................................72 
3.3. 
3.4. 
SLURM  命令参考 ...............................................................................................72 
Caffe  网络拓扑定义参考 ....................................................................................72 
3.5. 
3.6. 
GPU 监控数据来源 .............................................................................................72 
 
 
 
前言 
欢迎使用联想智能超算平台(以下简称  LiCO),LiCO  致力于提供简单、易用、丰富的高
性能计算及人工智能平台。本文档的读者需要具备一定的高性能计算、服务器集群的基础知
识,同时对高性能计算中的并行开发、作业调度、人工智能(以下简称  AI)有一定的了解。 
 
 
1. 产品简介 
联想智能超算平台(Lenovo intelligent Computing Orchestration 以下简称 LiCO)是联想基
于超性能计算(HPC)集群的一站式解决方案,其功能包括计算机集群管理,集群监控,
作业调度管理,集群用户管理,账户管理,文件系统管理等。通过  LiCO 可以实现对超算 
(supercomputing)  集群资源的统一调度,同时支持  HPC  作业和  AI  作业。随着人工智能、
高性能计算和大数据的广泛应用,LiCO 已被越来越多的政府机关、大专院校、气象环保、
石油石化、机械制造和生命科学研究等单位使用。 
 
LiCO 基于 B/S 架构设计,用户可以方便的通过网页来对集群进行全面而细致的管控。LiCO
系统的主要功能有: 
1.  集群的管理、监控:提供机房直观的物理视图,集群中各节点 CPU、内存、硬盘、温
度、系统负载以及网络使用状况等详细监控数据,并能对各节点进行逻辑分组,方便统
一规划和管理; 
2.  作业管理、监控:直观的作业运行结果和状态管理,并支持各种主流调度器,支持丰富
的作业类型(包括 AI 相关的作业如 Tensor Flow、Caffe 等); 
3.  用户管理、计费:统一的界面支持本地和域用户的集成,支持用户充值、扣费,并设置
计费组、费率等; 
4.  警告、报警:丰富的警报策略设置,并支持邮件、短信、微信等通知方式; 
5.  报表:多种报表类型,如集群报表,报警报表,作业报表,计费组作业报表等; 
6.  定制化:提供多样的定制化服务,如企业作业模板定制,报表定制,3D 机房定制化等
服务 
用户也可以通过其他  Shell  终端工具登陆到集群的登陆节点进行命令行操作。 
1.1.  名词解释 
计算机集群:对包含管理节点、登录节点、计算节点等在内的服务器资源的统称。 
作业:完成特定任务的命令序列。 
作业状态:指作业在调度系统中的状态标识,包括等待、排队、保留、运行、挂起、结束等。 
节点状态:指节点的状态标识,包括空闲、已占用、繁忙、停机等。 
作业调度系统:也称作业调度器或调度器,指负责接收、分发、执行、记账作业的分布式 
程序。 
管理节点:指集群中运行作业调度,集群管理,用户计费等管理程序的服务器。 
登录节点:指集群中用户可以通过  Linux  终端工具登录并进行操作的服务器。 
计算节点:指集群中执行作业的服务器。 
用户组:用户集合,系统可针对用户组来定义对集群资源的访问控制策略,属于同一个用户
组的所有用户可以访问相同的集群资源。 
计费组:也称计费账户,通过账户来对集群使用者进行计费,结算等操作。一个计费账户可
由一个用户或多个用户共同使用。 
1.2.  前提和假定 
本文描述的内容主要针对基于作业调度器  Slurm  的情况,目前  LiCO  支持三种调度器:
Slurm,Torque  以及  LSF。下文中  Slurm  相关命令不适用于 Torque 或  LSF  等调度器,
如需使用,请参考对应文档。 
1.3.  运行环境 
集群服务器: 
联想  Think System  服务器系列。 
 
集群服务器支持的操作系统: 
CentOS 6.8/7.3,  Red Hat 6.8/7.3 
 
客户端要求: 
硬件:CPU  主频  2.0GHz  以上,内存大小  1GB  以上。   
浏览器:推荐使用  Chrome  或  Firefox。   
显示分辨率:不小于  1280 X 800 
2. 使用说明 
本文档主要介绍基于管理系统界面的基本操作方法和流程。对于命令行操作的方法可以参 
考  2.13.1  命令行提交作业  以及  3.4 SLURM  命令参考。 
2.1.  登录 
打开浏览器输入集群登录节点的  IP  地址,如  https://10.220.112.21(客户端必须可以直接
访问集群登录节点)。可看到如下图所示的  LiCO  登录界面: 
 
 
输入用户名和密码(初始用户名和密码一般由管理员创建并告知)后点击登录,可登录   
LiCO 系统并看到如下图所示的主界面: 
图  1  登录界面 
图  2  用户主界面 
2.2.  登出 
LiCO  系统的用户登录会话令牌  (Token)  有自动延时功能,在正常使用系统的情况下并不
会出现登录超时现象,所以当不使用系统时,请按如下步骤登出系统。 
点击界面右上角的 按钮可弹出如下图所示的用户信息框: 
 
图  3  用户信息对话框 
点击框内右上角 按钮并在确认登出,即可登出  LiCO  系统。 
2.3.  修改密码 
用户在登录系统后,可以按如下步骤自行修改登录密码。 
点击界面右上角的 按钮可弹出如图  3  所示的用户信息框,点击框内上方 按钮可弹出
如下图所示的密码修改对话框: 
 
图  4  修改密码对话框 
输入当前密码及修改密码后点击提交,即可完成密码修改。 
2.4.  查看集群资源及队列状态 
点击位于主界面右侧菜单中的首页,可进入如下图所示的集群概况界面: