## AIスパコン「さくらONE」で挑むLLM・HPCベンチマーク (2) MLPerf GPT-3 175B事前学習性能検証

概要

https://knowledge.sakura.ad.jp/48499/

詳細内容

## AIスパコン「さくらONE」で挑むLLM・HPCベンチマーク (2) MLPerf GPT-3 175B事前学習性能検証 https://knowledge.sakura.ad.jp/48499/ さくらインターネットは、自社開発AIスパコン「さくらONE」でMLPerf GPT-3 175B事前学習ベンチマークを実施し、その測定結果と、分散学習、ネットワーク、ソフトウェアスタックの深い技術的詳細を報告しました。 **Content Type**: 🔬 Research & Analysis **Language**: ja **Scores**: Signal:5/5 | Depth:5/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:5/5 **Main Journal**: 93/100 | **Annex Potential**: 92/100 | **Overall**: 92/100 **Topics**: [[LLM学習, 分散学習, AIスパコン, MLPerfベンチマーク, 高速ネットワーク]] さくらインターネットは、自社開発AIスパコン「さくらONE」を用いて、大規模言語モデル（LLM）の事前学習性能を評価するため、MLPerf GPT-3 175Bモデルのベンチマークを実施し、その測定結果を報告するとともに、分散学習の核心技術、ネットワーク通信の最適化、およびソフトウェアスタックの役割について詳細に解説しました。記事は、大規模LLM学習における「メモリの壁」と「通信の壁」という主要課題を詳述しています。メモリの壁に対しては、データ並列、パイプライン並列、テンソル並列、およびZeROなどの多様な並列化手法が、GPUメモリに収まらないモデル状態を分散処理する仕組みを解説。通信の壁については、GPU間を高速接続するNVLink（ノード内）と、RDMA対応のRoCEv2（ノード間、さくらONE採用）が、CPUを介さずに直接メモリ転送するGPUDirect RDMAによりボトルネックを解消する重要性を強調し、LLM学習に最適化されたRail Optimizedトポロジも紹介しています。ベンチマークはMLPerf Training GPT-3 175B事前学習タスクに準拠し、NVIDIA NeMo Framework（Megatron-LMベース）とTransformer Engineを用いたFP8混合精度学習で行われ、TP=8, PP=16, DP=6の3次元並列戦略が採用されました。測定結果として、「さくらONE」（96ノード、768 GPU）は41.862分、32ノード（256 GPU）では105.310分で目標のLog Perplexityに到達。これは、同規模のNVIDIA Eos（InfiniBand）と比較して約91.7%の速度であり、オープンなEthernet技術を用いるさくらONEがトップレベルの専用機に匹敵する性能を発揮することを示しました。GPUあたりの演算効率（MFU）も36-38%と、H100のFP8混合精度学習の一般的な範囲内です。著者は、今後の課題として、最適なパラメータ探索の自動化、理論的推定に基づくチューニング、および詳細なオブザーバビリティ環境の整備を挙げています。 Webアプリケーションエンジニアにとって、この報告は大規模AIモデルを支える基盤技術への深い理解を促します。オープンな技術スタックを採用した国産AIスパコンが専用機に迫る性能を発揮するという事実は、将来のAI活用アプリケーション開発におけるインフラ選定やコスト戦略において、新たな選択肢と洞察を提供するでしょう。AIサービスの設計や運用において、LLM学習のパフォーマンス特性を正確に把握することは、技術的判断を下す上で不可欠です。

元記事を読む他のサマリーを見る