本节介绍 Slurm 实验环境的安装,包括一个控制节点和64个计算节点(控制节点同时作为计算节点)4个GPU节点, 使用pdsh和pssh来简化配置工作.
0 准备工作
0.1关闭 Firewall
1 | systemctl stop firewalld.service |
0.2 同步时间
1 | pssh -i -h root_all "rdate -s 192.168.10.56 |
###0.3关闭SELinux
1 | vi /etc/sysconfig/selinux |
0.4创建slurm用户(可选,本文使用了root账户,这里可以不看)
先创建slurm用户来进行操作。(#表示需要sudo权限或root用户的操作) 刚创建的云主机只有root用户,一般用root用户操作有许多不便之处,需要先创建slurm用户来进行操作。(#表示需要sudo权限或root用户的操作).或者像本文一样使用root账户.这里还必须保证slurm 的uid完全一致,我们这里使用了root就不管了,如果添加账户的话,可以采用 9527的uid和gid
1 | useradd -u 9527 slurm |
如果已有用户冲突可以采取下列方式
1 | 修改foo用户的uid |
最好不要另开账户了,如果开的话,参考用户管理一文进行提权.
0.4 安装依赖
在所有的节点上安装slurm依赖,slurm在创建安装包时需要 perl-ExtUtils-MakeMaker rpm-build
1 | #遇到mysqlclient accounting_storage_mysql.so错误 |
1 下载并制作rpm包
1 | wget https://download.schedmd.com/slurm/slurm-19.05.3.tar.bz2 |
2安装配置slurm
1 | cd /root/rpmbuild/RPMS/x86_64 |
到这里所有的slurm已经搭建完毕,花费时间5天.简直天坑
在任意节点执行 sinfo 命令,你将看到类似输出,则证明服务工作正常
1 | PARTITION AVAIL TIMELIMIT NODES STATE NODELIST |
3 配置文件
本文所使用的slurm.conf和cgroup.conf