为了满足全校师生复杂多样的个性化计算需求,适应新型计算模式如人工智能训练等对运行环境的复杂要求, 高性能计算平台的建设除了在硬件设备的选型上充分考虑了计算的多样性,提供了包含CPU节点、GPU节点的丰富算力组合, 在软件平台的建设上也采用了区别于传统超算中心的作业调度系统的解决方案,在不损失计算性能的前提下以灵活多样的方式提供服务。
公共集群 | 独占集群 | 私有/共享实例 | |
---|---|---|---|
适用人群 | 对Linux命令行和作业调度系统比较熟悉 | 对Linux命令行和作业调度系统比较熟悉,计算量非常大。 | 不熟悉Linux,习惯交互式图形界面。无计算机背景的新用户建议使用这种模式。 |
应用场景 | 全校共享一个计算集群,多用户排队提交作业 | 个人/院系独占集群资源,可自定义集群内部运行环境,自主安装系统应用 | 个人独占/多人共享单节点资源 |
执行方式 | SLURM作业提交 | 自主安装作业调度系统或直接多节点并行 | 交互式提交 |
节点数量 | 预分配固定节点 | 规模可伸缩 | 单节点 |
应用类型 | 绝大多数计算任务 | 绝大多数计算任务 | CentOS、Ubuntu系统,Jupyter、RStudio、MATLAB等有交互界面的计算任务。 |
申请资源 | 编写资源申请脚本,使用作业调度软件提交作业 | Web页面申请集群,编写资源申请脚本,登录集群后提交作业 | 在Web界面申请资源,使用Linux命令行或者VNC操作服务器 |
计费方式 | 从作业启动后开始计费,直到作业结束,作业结束后资源自动释放。 | 从启动计算资源开始计费,直到资源释放为止。有最长使用期限,超过最长使用期限后系统自动释放资源,用户也可以自己手动释放资源。 | 从启动计算资源开始计费,直到资源释放为止。有最长使用期限,超过最长使用期限后系统自动释放资源,用户也可以自己手动释放资源。 |
图形界面 | 不支持 | 支持 | 支持 |
客户端ssh | 支持 | 支持 | 不支持 |
root权限 | 否 | 是 | 是 |
如上表所示,计算云主要支持三种模式:
对于计算资源使用量较大、有一定Linux命令行基础的用户,可以考虑使用公共集群或者独占集群模式。 这两种模式都使用作业调度系统提交作业。不同在于公共集群按作业运行时长来计费,独占集群的计费从申请资源开始到资源释放,如果中间并未运行作业,依然计费。
如果对Linux命令行不熟悉,我们提供了私有实例模式,可以在“申请资源”处申请有交互界面的计算资源,提供了Jupyter等有交互界面的工具,上手简单,无需学习Linux, 适用于无计算机背景的新用户。此模式优点是学习成本低,缺点是计费方式粒度粗,不适合有大量计算任务的用户。用户也可以前期使用这类交互界面实例,如发现计算量较大, 建议逐渐迁移到公共集群模式上,该模式计费更准确。