logo资料库

联想智能超算平台LICO用户手册.pdf

第1页 / 共72页
第2页 / 共72页
第3页 / 共72页
第4页 / 共72页
第5页 / 共72页
第6页 / 共72页
第7页 / 共72页
第8页 / 共72页
资料共72页,剩余部分请下载后查看
联想智能超算平台用户手册 V5.1.0 日期:2018/05/03 版本号:v1.0
目录 产品简介 ...............................................................................................................4 1. 名词解释 ...............................................................................................................4 1.1. 前提和假定 ...........................................................................................................5 1.2. 运行环境 ...............................................................................................................5 1.3. 使用说明 ...............................................................................................................5 2. 登录 ......................................................................................................................5 2.1. 登出 ......................................................................................................................6 2.2. 修改密码 ...............................................................................................................7 2.3. 查看集群资源及队列状态 ......................................................................................7 2.4. 上传作业程序 ........................................................................................................8 2.5. 上传容器镜像 ......................................................................................................12 2.6. 2.7. 提交作业 .............................................................................................................14 2.7.1. 提交 General 作业 ............................................................................................14 2.7.2. 提交 Common 作业 ...........................................................................................16 2.8. 提交 HPC 作业 ..................................................................................................19 2.8.1. 提交 MPI 作业 ...................................................................................................19 2.8.2. 提交 ANSYS 作业 .............................................................................................21 2.8.3. 提交 COMSOL 作业 ..........................................................................................24 2.9. 提交 AI 作业 ......................................................................................................27 2.9.1. 提交 TensorFlow 作业 ......................................................................................27 2.9.2. 提交 Caffe 作业 .................................................................................................31 2.9.3. 提交 Intel Caffe 作业 .........................................................................................33 2.9.4. 提交 MXNet 作业 ..............................................................................................34 2.9.5. 提交 Neon 作业 ..................................................................................................36 2.9.6. GPU 作业监控 ....................................................................................................38 2.10. 作业生命周期管理 ...............................................................................................40 2.10.1. 取消作业 .............................................................................................................40 2.10.2. 重新运行作业 ......................................................................................................41 2.10.3. 删除作业 .............................................................................................................42 2.11. 训练 AI 图像分类模型 ........................................................................................42 2.11.1. 导入图像数据集 ..................................................................................................43
2.11.2. 创建网络拓扑 ......................................................................................................47 2.11.3. 训练模型 .............................................................................................................50 2.11.4. 参数调整 .............................................................................................................54 2.11.5. 测试及导出模型 ..................................................................................................55 2.11.6. 管理预训练模型 ..................................................................................................57 2.12. 自定义模板 .........................................................................................................58 2.12.1. 创建自定义模板 ..................................................................................................59 2.12.2. 发布自定义模板 ..................................................................................................66 2.13. 专家模式 .............................................................................................................66 2.13.1. 命令行提交作业 ..................................................................................................69 2.13.2. 作业文件编写 ......................................................................................................70 2.14. VNC 管理 ...........................................................................................................70 注意事项 .............................................................................................................71 3. 用户相关目录的绝对路径 ....................................................................................71 3.1. 3.2. 解决作业提交失败 ...............................................................................................71 VNC 查看或删除失败 .........................................................................................72 3.3. 3.4. SLURM 命令参考 ...............................................................................................72 Caffe 网络拓扑定义参考 ....................................................................................72 3.5. 3.6. GPU 监控数据来源 .............................................................................................72
前言 欢迎使用联想智能超算平台(以下简称 LiCO),LiCO 致力于提供简单、易用、丰富的高 性能计算及人工智能平台。本文档的读者需要具备一定的高性能计算、服务器集群的基础知 识,同时对高性能计算中的并行开发、作业调度、人工智能(以下简称 AI)有一定的了解。
1. 产品简介 联想智能超算平台(Lenovo intelligent Computing Orchestration 以下简称 LiCO)是联想基 于超性能计算(HPC)集群的一站式解决方案,其功能包括计算机集群管理,集群监控, 作业调度管理,集群用户管理,账户管理,文件系统管理等。通过 LiCO 可以实现对超算 (supercomputing) 集群资源的统一调度,同时支持 HPC 作业和 AI 作业。随着人工智能、 高性能计算和大数据的广泛应用,LiCO 已被越来越多的政府机关、大专院校、气象环保、 石油石化、机械制造和生命科学研究等单位使用。 LiCO 基于 B/S 架构设计,用户可以方便的通过网页来对集群进行全面而细致的管控。LiCO 系统的主要功能有: 1. 集群的管理、监控:提供机房直观的物理视图,集群中各节点 CPU、内存、硬盘、温 度、系统负载以及网络使用状况等详细监控数据,并能对各节点进行逻辑分组,方便统 一规划和管理; 2. 作业管理、监控:直观的作业运行结果和状态管理,并支持各种主流调度器,支持丰富 的作业类型(包括 AI 相关的作业如 Tensor Flow、Caffe 等); 3. 用户管理、计费:统一的界面支持本地和域用户的集成,支持用户充值、扣费,并设置 计费组、费率等; 4. 警告、报警:丰富的警报策略设置,并支持邮件、短信、微信等通知方式; 5. 报表:多种报表类型,如集群报表,报警报表,作业报表,计费组作业报表等; 6. 定制化:提供多样的定制化服务,如企业作业模板定制,报表定制,3D 机房定制化等 服务 用户也可以通过其他 Shell 终端工具登陆到集群的登陆节点进行命令行操作。 1.1. 名词解释 计算机集群:对包含管理节点、登录节点、计算节点等在内的服务器资源的统称。 作业:完成特定任务的命令序列。 作业状态:指作业在调度系统中的状态标识,包括等待、排队、保留、运行、挂起、结束等。 节点状态:指节点的状态标识,包括空闲、已占用、繁忙、停机等。 作业调度系统:也称作业调度器或调度器,指负责接收、分发、执行、记账作业的分布式 程序。 管理节点:指集群中运行作业调度,集群管理,用户计费等管理程序的服务器。 登录节点:指集群中用户可以通过 Linux 终端工具登录并进行操作的服务器。 计算节点:指集群中执行作业的服务器。
用户组:用户集合,系统可针对用户组来定义对集群资源的访问控制策略,属于同一个用户 组的所有用户可以访问相同的集群资源。 计费组:也称计费账户,通过账户来对集群使用者进行计费,结算等操作。一个计费账户可 由一个用户或多个用户共同使用。 1.2. 前提和假定 本文描述的内容主要针对基于作业调度器 Slurm 的情况,目前 LiCO 支持三种调度器: Slurm,Torque 以及 LSF。下文中 Slurm 相关命令不适用于 Torque 或 LSF 等调度器, 如需使用,请参考对应文档。 1.3. 运行环境 集群服务器: 联想 Think System 服务器系列。 集群服务器支持的操作系统: CentOS 6.8/7.3, Red Hat 6.8/7.3 客户端要求: 硬件:CPU 主频 2.0GHz 以上,内存大小 1GB 以上。 浏览器:推荐使用 Chrome 或 Firefox。 显示分辨率:不小于 1280 X 800 2. 使用说明 本文档主要介绍基于管理系统界面的基本操作方法和流程。对于命令行操作的方法可以参 考 2.13.1 命令行提交作业 以及 3.4 SLURM 命令参考。 2.1. 登录 打开浏览器输入集群登录节点的 IP 地址,如 https://10.220.112.21(客户端必须可以直接 访问集群登录节点)。可看到如下图所示的 LiCO 登录界面:
输入用户名和密码(初始用户名和密码一般由管理员创建并告知)后点击登录,可登录 LiCO 系统并看到如下图所示的主界面: 图 1 登录界面 图 2 用户主界面 2.2. 登出 LiCO 系统的用户登录会话令牌 (Token) 有自动延时功能,在正常使用系统的情况下并不 会出现登录超时现象,所以当不使用系统时,请按如下步骤登出系统。 点击界面右上角的 按钮可弹出如下图所示的用户信息框:
图 3 用户信息对话框 点击框内右上角 按钮并在确认登出,即可登出 LiCO 系统。 2.3. 修改密码 用户在登录系统后,可以按如下步骤自行修改登录密码。 点击界面右上角的 按钮可弹出如图 3 所示的用户信息框,点击框内上方 按钮可弹出 如下图所示的密码修改对话框: 图 4 修改密码对话框 输入当前密码及修改密码后点击提交,即可完成密码修改。 2.4. 查看集群资源及队列状态 点击位于主界面右侧菜单中的首页,可进入如下图所示的集群概况界面:
分享到:
收藏