概要
スーパーコンピュータのログインノードでコーディング支援ツールを実行した際、深刻なメモリ消費とストレージのデッドロックによりシステムを停止させてしまった実体験の分析。
詳細内容
著者がスーパーコンピュータのログインノードにおいて、コーディング支援ツール「Codex」を使用した際に発生したシステム障害のポストモーテムです。ツールの起動直後にプロセスが中断不可能なスリープ状態(Dステート)となり、Lustreファイルシステムへのアクセス待ちによるデッドロックが発生、他のユーザーも含めSSH接続が不可能になる事態を招きました。
分析の結果、ツールが起動時に大量のファイルをスキャンすることや、特定のツール(Claude等)が数10GBものメモリを占有する深刻なメモリリークを引き起こしている可能性が指摘されています。共有資源であるログインノードにおいて、開発支援ツールのような一見軽量なソフトウェアであっても、予期せぬ高負荷や共有ストレージへの影響を与えるリスクがあることを実体験から警告しています。解決策として`ulimit`による仮想メモリ制限などの対策も提案されています。