SLURM JOB SCHEDULER

less than 1 minute read

컴퓨터 환경: macOS Big Sur

1. 프로그램 준비

terminal (ssh 접속을 위함)
FileZilla
Visual Studio Code

2. run_slurm.sh

1. sh 파일

hostname
date

module add CUDA/11.2.2
module add ANACONDA/2020.11

python /home1/prof/jeon/an/gputest.py

2. sh 파일 해석

  • hostname: 코드가 작동하는 host 이름
  • date: 코드 시작 시간
  • module add CUDA/11.2.2: module로 CUDA 환경 호출
  • module add ANACONDA/2020.11: module로 anaconda 환경 호출
  • python /home1/prof/jeon/an/gputest.py: 구동할 python 코드의 경로와 파일 이름

3. 실행하기

1. 실행 command 명령문

$ sbatch --partition=gpu --gres=gpu:rtx3090:1 run_slurm.sh

2. 실행 command 명령문 해석

  • sbatch: job 제출
  • --partition=gpu: 사용할 partition 이름 (gpu or hgx)
  • --gres=gpu:rtx3090:1: 사용할 gpu의 이름과 개수 (반드시 필요!)
  • --gres-gpu:hgx:4: A100 4개 동시 사용
  • run_slurm.sh: sh 파일 이름

4. 진행 상태 확인

  • $ qstat: 제출된 job 목록 확인
  • ~.out: 실행된 코드의 진행 상태 확인
  • ~.err: 실행된 코드의 오류 확인

Comments