差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン 前のリビジョン 次のリビジョン | 前のリビジョン | ||
分子シミュレーション関連:環境構築:slurm [2019/03/01 20:37] – ["sinfo -N" でノードがダウンした状態になる] mumeiyamibito | 分子シミュレーション関連:環境構築:slurm [2023/06/14 10:53] (現在) – [インストール方法] mumeiyamibito | ||
---|---|---|---|
行 2: | 行 2: | ||
===== 概要 ===== | ===== 概要 ===== | ||
* Torque や Sun Grid Engine のようなジョブ管理ツール。 | * Torque や Sun Grid Engine のようなジョブ管理ツール。 | ||
- | * 現状、ドキュメントは Torque | + | * 現状、Slurm は Torque |
* Ubuntu のデフォルトリポジトリには登録されている。 | * Ubuntu のデフォルトリポジトリには登録されている。 | ||
行 10: | 行 10: | ||
* 参考サイト: | * 参考サイト: | ||
- | ===== インストール方法 ===== | + | ===== 使い方 ===== |
- | * ここでは、Ubuntu 16.04 ベースで、ソースからコンパイルする方法を紹介する。 | + | ==== ジョブの投入 |
+ | * torque と同じで、ジョブファイルを作成し、'' | ||
+ | $ sbatch JOBFILE.sh | ||
+ | </ | ||
+ | * ジョブの制御は、コマンドオプションで指定するか、ジョブファイルの先頭に ''# | ||
+ | * ジョブファイルの例: | ||
+ | #!/bin/bash | ||
+ | #SBATCH -p PARTITION | ||
+ | #SBATCH -n 1 | ||
+ | #SBATCH -J " | ||
+ | #SBATCH -o " | ||
+ | |||
+ | JOB_COMMAND | ||
+ | </ | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * これらのコマンドは '' | ||
+ | * 参考サイト: | ||
+ | |||
+ | ==== ジョブの確認 ==== | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * 表示フォーマットの指定例: | ||
+ | * 標準: '' | ||
+ | * 標準+ディレクトリ: | ||
+ | * 標準+実行ファイル: | ||
+ | * その他のオプション | ||
+ | * '' | ||
+ | * 例: '' | ||
+ | |||
+ | ==== ジョブ制御 ==== | ||
+ | * 待機中のジョブを停止 (実行させないように) する\\ <code bash> | ||
+ | $ scontrol hold JOBID | ||
+ | </ | ||
+ | * '' | ||
+ | * ジョブ投入時に、この状態にしたい場合は、'' | ||
+ | * 上記の待機状態を解除する\\ <code bash> | ||
+ | $ scontrol release JOBID | ||
+ | </ | ||
+ | * 実行中のジョブを停止 (一時停止) させる。\\ <code bash> | ||
+ | $ sudo scontrol suspend JOBID | ||
+ | </ | ||
+ | * '' | ||
+ | * 管理者権限が必要となることに注意 | ||
+ | * 上記の状態を解除する\\ <code bash> | ||
+ | $ sudo scontrol resume JOBID | ||
+ | </ | ||
+ | |||
+ | ===== インストール方法 ===== | ||
+ | * Ubuntu のリポジトリ (apt) からインストールする場合は、" | ||
+ | * ここでは、Ubuntu 16.04 ベースで、ソースからコンパイルする方法を紹介する。 | ||
+ | |||
- 認証システム munge をインストールする。\\ <code bash> | - 認証システム munge をインストールする。\\ <code bash> | ||
$ sudo apt-get install libmunge-dev libmunge2 munge | $ sudo apt-get install libmunge-dev libmunge2 munge | ||
行 22: | 行 84: | ||
$ sudo systemctl edit --system --full munge | $ sudo systemctl edit --system --full munge | ||
</ | </ | ||
- | - '' | + | - '' |
- 再度インストールする。\\ <code bash> | - 再度インストールする。\\ <code bash> | ||
$ sudo apt-get install -f | $ sudo apt-get install -f | ||
行 93: | 行 155: | ||
===== システムの設定 ===== | ===== システムの設定 ===== | ||
+ | ==== 一般マシン ==== | ||
+ | |||
* マスターノード (master)、計算ノード (calc01, calc02, calc03) の例.\\ <code conf slurm.conf> | * マスターノード (master)、計算ノード (calc01, calc02, calc03) の例.\\ <code conf slurm.conf> | ||
ControlMachine=master | ControlMachine=master | ||
行 169: | 行 233: | ||
* GPU: [[https:// | * GPU: [[https:// | ||
* 割り込み: | * 割り込み: | ||
+ | |||
+ | ==== GPU マシン ==== | ||
+ | * 上記に加えて、'' | ||
+ | * '' | ||
+ | * <code conf gres.conf> | ||
+ | Name=gpu Type=pascal File=/ | ||
+ | </ | ||
+ | * '' | ||
+ | * '' | ||
+ | * アーキテクチャ対応表: | ||
+ | |||
===== トラブルシューティング ===== | ===== トラブルシューティング ===== |