目次

torque (旧OpenPBS)

概要

導入方法

サーバ側(サーバでもジョブを処理させる場合)

  1. インストール
    • サーバでもジョブを処理させる場合
      $ sudo apt-get install torque-server torque-mom torque-client torque-scheduler
  2. 起動中の torque を終了させる
    1. 起動中の torque を確認
      $ ps -e | grep pbs
    2. root 権限で終了させる (service コマンドの stop や kill) する
      $ sudo service torque-mom stop
      $ sudo service torque-scheduler stop
      $ sudo service torque-server stop

      ※service コマンドで torque-server が終了しない場合

      $ sudo kill 24277

      24277 は、pbs_server の PID で ps -e | grep pbs で確認する

  3. 設定ディレクトリの設定
    $ sudo mkdir /var/spool/torque/server_priv
    $ sudo chmod 777 /var/spool/torque/spool /var/spool/torque/undelivered
    $ sudo chmod o+t /var/spool/torque/spool /var/spool/torque/undelivered
  4. サーバ名の設定
    $ sudoedit /etc/torque/server_name

    ホスト名を入れる

  5. 新たにサーバプロファイルを作成 (このコマンドを実行すると torque_server が起動する)
    $ sudo pbs_server -t create
  6. ノードの設定
    $ ps -e | grep pbs
    $ sudo kill xxxxx
    $ sudoedit /var/spool/torque/server_priv/nodes
    • 中には ノード名 np=CPU数 を列挙していく
    • 例:
      server np=8
      node1  np=4
      node2  np=4
      node3  np=2
  7. ホスト名の設定
    $ sudoedit /etc/hosts
    • 127.0.0.1 は localhost からホスト名に変更
    • 127.0.1.1 はコメントアウト
    • ノードのホスト名も入れていく
  8. サーバやキューの設定 (設定ファイルを読み込ませる)
    $ sudo service torque-server start
    $ sudo qmgr < queue.conf
    • 設定ファイル (queue.conf) は以下の通り
      queue.conf
      #
      # Create queues and set their attributes.
      #
      #
      # Create and define queue F
      #
      create queue F
      set queue F queue_type = Execution
      set queue F resources_default.ncpus = 1
      set queue F resources_default.nodes = 1
      set queue F enabled = True
      set queue F started = True
      #
      # Create and define queue Q2
      #
      create queue Q2
      set queue Q2 queue_type = Execution
      set queue Q2 max_running = 1
      set queue Q2 resources_max.ncpus = 4
      set queue Q2 resources_max.nodes = 1
      set queue Q2 resources_default.ncpus = 1
      set queue Q2 resources_default.nodes = 1
      set queue Q2 resources_available.ncpus = 4
      set queue Q2 resources_available.nodes = 1
      set queue Q2 enabled = True
      set queue Q2 started = True
      #
      # Create and define queue Q4
      #
      create queue Q4
      set queue Q4 queue_type = Execution
      set queue Q4 max_running = 1
      set queue Q4 resources_max.ncpus = 4
      set queue Q4 resources_max.nodes = 1
      set queue Q4 resources_default.ncpus = 1
      set queue Q4 resources_default.nodes = 1
      set queue Q4 resources_available.ncpus = 4
      set queue Q4 resources_available.nodes = 1
      set queue Q4 enabled = True
      set queue Q4 started = True
      #
      # Create and define queue Q1
      #
      create queue Q1
      set queue Q1 queue_type = Execution
      set queue Q1 max_running = 1
      set queue Q1 resources_max.ncpus = 4
      set queue Q1 resources_max.nodes = 1
      set queue Q1 resources_default.ncpus = 1
      set queue Q1 resources_default.nodes = 1
      set queue Q1 resources_available.ncpus = 4
      set queue Q1 resources_available.nodes = 1
      set queue Q1 enabled = True
      set queue Q1 started = True
      #
      # Create and define queue Q3
      #
      create queue Q3
      set queue Q3 queue_type = Execution
      set queue Q3 max_running = 1
      set queue Q3 resources_max.ncpus = 4
      set queue Q3 resources_max.nodes = 1
      set queue Q3 resources_default.ncpus = 1
      set queue Q3 resources_default.nodes = 1
      set queue Q3 resources_available.ncpus = 4
      set queue Q3 resources_available.nodes = 1
      set queue Q3 enabled = True
      set queue Q3 started = True
      #
      # Set server attributes.
      #
      set server scheduling = True
      set server default_queue = F
      set server log_events = 511
      set server query_other_jobs = True
      set server scheduler_iteration = 600
      set server node_check_rate = 150
      set server tcp_timeout = 6
      set server node_pack = False
      set server allow_node_submit = True
    • F: 制限がないキュー
    • Q1〜Q4: 1 ジョブしか流せないキュー
  9. 起動
    $ sudo service torque-scheduler start
    $ sudo service torque-mom start
  10. サーバ名の確認
    $ qstat -q
  11. サーバの設定状況の確認
    $ pbsnodes -a
  12. テスト
    $ echo "sleep 30" | qsub
    $ qstat

サーバ側 (サーバでジョブを処理させない場合)

  1. インストール
    $ sudo apt-get install torque-server torque-scheduler

ノード側

  1. インストール
    $ sudo apt-get install torque-mom torque-client

使い方

ジョブファイル

オプション 意味
-Vジョブを投入した所の環境変数をすべて、ジョブファイルにも適用する
-vジョブを投入した所の環境変数を指定した分だけ、ジョブファイルにも適用する
-qキューの指定
-j出力ファイルの制御oe: 標準出力と標準エラーを標準ファイル(*.oジョブID)にまとめる, eo: 標準出力と標準エラーを標準エラーファイル(*.eジョブID)にまとめる, 指定しない場合は、それぞれのファイルが出力される
-o標準出力ファイルのパス
-e標準エラーファイルのパス
-mメール送信の方法次の文字の組み合わせでメールの送信タイミングを指定 a: ジョブが失敗, b: ジョブが開始, e: ジョブが終了, n: 何もしない
-Mメールの送信先
-lリソースの指定(複数ある場合は、カンマで区切る)walltime=24:00:00
nodes=2:ppn=2 (2CPUずつ2ノードを使う; 計4CPU)
nodes=ノード1:ppn=3+ノード2:ppn=2+ノード3:ppn=1 (特定のノードを利用する場合はノード名を書いて + で結合する)
mem, ncpu が使える
-Nジョブ名指定しない場合は、ジョブファイル名の先頭から15文字

キューの設定項目

サーバ設定

set server … で始まる項目

項目 意味 値 (太字がデフォルト)
schedulingスケジューリングの有効化true or false
default_queueデフォルトのキューを設定
log_eventsログの出力内容
query_other_jobsroot以外のユーザが他人のジョブを閲覧する許可true or false
scheduler_iteration?
node_check_rateノードが死亡していると判断するまでの時間(秒)整数値 (600)
tcp_timeoutpbs_serverとpbs_mon間のTCPソケットのタイムアウト時間(秒)整数値 (8)
node_pack1つのノードを埋めてから次のノードを利用するかtrue or false
allow_node_submitノードからのジョブ投入の許可true or false

キュー設定

set queue キュー名 … で始まる項目

項目 意味 値 (太字がデフォルト)
queue_typeキュータイプ execution(e) or route(r)
resource_default.ncpusデフォルトで指定されるCPU数
resources_default.nodesデフォルトで指定されるノード数
enabledジョブの受け入れ(このキューでのジョブ投入を許可するか)true or false
startedジョブを実行するか(falseならhold状態で投入される)true or false

その他

参考サイト