slurm Workload Manager

導入サポート・詳細設定サービス

研究・開発現場の運用を見据えたSlurm

大規模言語モデル(LLM)の学習環境やハイパフォーマンス・コンピューティング(HPC)において、計算資源の効率的な管理は不可欠です。世界中のスーパーコンピュータの約65%で採用されるデファクトスタンダード「Slurm Workload Manager」の力を最大限に引き出します。

Service

■ こんな方におススメです!

HPC、GPUクラスタの利用率を改善したい
O penPBS など既存環境から次世代基盤へ移行したい
AI、機械学習基盤を社内外へ提供したい
将来の拡張を見据えた標準技術を採用したい

弊社では、Slurmの導入から基本的な設定作業、そしてお客様の要件に合わせた高度なチューニングまで、すべての作業をワンストップで請け負うことが可能です。Slurmの詳細設定を行い、お客様の環境に最適なオプションをご提供します。

Slurm Workload Manager 導入・詳細設定サービス

Slurmは単なる「先入れ先出し」のジョブ管理ツールではありません。
複雑な運用ルールをシステムに落とし込み、計算リソースの稼働率を極限まで高めるための設定例をご紹介します。

パーティション（キュー）によるリソースの階層分割

「計算時間の短いジョブ用のキュー（Short）」や、「GPU搭載ノード専用のキュー（GPU）」を作成し、ユーザーが用途に応じてジョブの投げ先を選択可能にします。バックフィル・スケジューリング機能と組み合わせることで、リソースの隙間を縫って短いジョブを前倒しで実行し、システム全体の稼働率を飛躍的に向上させます

QoS（Quality of Service）による柔軟な優先度制御

多要素ジョブ優先順位アルゴリズム（Multifactor Job Priority）を用いて、複数の要因から優先順位を動的に計算します。

Fair-share（公平な分配）

永続化された過去の利用データベース（Slurmdbd）を参照し、過去にたくさん計算したユーザーの優先度を下げ、あまり使っていない人を優先します。

QoS (Quality of Service)

ミッションクリティカルなジョブや特定のプロジェクトに高い優先順位を付与し、他を追い抜いてスケジュールさせることが可能です。

Age（待機時間）

優先順位の低いジョブが永遠に実行されない「スタベーション（餓死）状態」を防ぐため、待機時間に応じた加点も行います。

計算リソースの厳密な制限 (Consumable Resources)

CPUコアやメモリの制限に加え、「GRES（Generic Resource）」機能を用いて、NVIDIA、AMD、IntelなどのGPUアクセラレータを自動検出・厳密に割り当てます。さらに最新の「HRES（階層的リソース）」機能を活用すれば、ラックレベルやデータセンター全体の消費電力上限を厳密に管理することも可能です。

プロローグ・エピローグ（前処理・後処理）の自動化

ジョブ開始前のノードのセットアップや、終了後のクリーンアップ処理（Epilogスクリプト）を自動化します。ハードウェアのクラッシュやクリーンアップ失敗時に、別ノードでジョブを直ちに自動再実行させる（Expedited Requeue）フェイルセーフ設定も可能です。

研究用途に応じた計算環境の構成をご提案します

基本的な設定にとどまらず、最先端のインフラ要件に対応する以下の高度な構築も承ります。

Kubernetesとの完全統合（Slinkyプロジェクト）Slurm OperatorおよびSlurm Bridgeを活用し、インフラをサイロ化することなく、AI向けのKubernetesコンテナワークロードと従来のHPCバッチジョブを単一のリソースプールで共存させます。

堅牢なセキュリティとモダン認証の実装。ノード間の超高速なMUNGE認証の構築に加え、クラウドサービス連携に必須となるインターネット標準のJWT/JWKS認証プロキシの設定を行います。ダウンタイム・ゼロのローリングアップグレード過去3世代のメジャーリリースとの後方互換性を活かし、システム全体を停止させることなく、デーモンごとの段階的なアップデートが可能な構成を構築します。

slurm に関するご相談・お問い合わせはこちら

PAGE TOP