## RAMEN-SHIO-235B - 事後学習の軌跡 #LLM

概要

https://qiita.com/som3ya/items/fb4e2459061ce67634c1

詳細内容

## RAMEN-SHIO-235B - 事後学習の軌跡 #LLM https://qiita.com/som3ya/items/fb4e2459061ce67634c1 松尾研LLM開発コンペ2025において、チームRAMENはQwen3-235Bベースの「RAMEN-SHIO-235B」を開発し、SFTからDPOへの戦略転換と詳細なハイパーパラメータ調整を通じてHumanity's Last Examでトップ性能を達成した軌跡を解説する。 **Content Type**: Research & Analysis **Language**: ja **Scores**: Signal:5/5 | Depth:5/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:5/5 **Main Journal**: 93/100 | **Annex Potential**: 92/100 | **Overall**: 92/100 **Topics**: [[LLM事後学習, 強化学習 (DPO/GRPO), MoEモデル, 大規模言語モデル (LLM), ハイパーパラメータ調整]] 東京大学松尾・岩澤研究室主催のLLM開発コンペ2025において、チームRAMENはQwen3-235B-A22B-Thinking-2507をベースに「RAMEN-SHIO-235B」を開発し、Humanity's Last Exam (HLE) でオープンソースモデル最高レベルの性能を達成、優勝しました。本記事は、この3週間という限られた期間での事後学習の軌跡を詳細に解説します。当初、SFT（Supervised Fine-Tuning）とGRPO（Group Relative Policy Optimization）の二軸で学習戦略を検討しましたが、強力なベースモデルが追加学習で性能劣化する課題や、マルチノードGRPO実装の困難さ、そして実験に要する時間の長さがボトルネックとなりました。SFTは`ms-swift (Megatron)`への移行で高速化できたものの、HLEスコアがベースモデルを下回る傾向に。GRPOもメモリ不足や環境構築の複雑さ、実行時間の問題から断念せざるを得ませんでした。プロジェクト中盤で、チームは実装がシンプルで高速なオフライン強化学習であるDPO（Direct Preference Optimization）へと戦略を転換。DPOでは、モデル自身に問題を解かせ、正解を出力（chosen）し不正解を出力（rejected）としてペアを作成した学習データを活用。これにより、ベースモデルの出力分布と乖離しすぎず、望ましい振る舞いを強化することを目指しました。まず30BモデルでSFT、DFT、DPOを比較検証した結果、SFTやDFTが性能を低下させる傾向にある中、DPOはベースモデルと同程度の性能を維持し、改善余地があることを確認。この知見に基づき、235BモデルでのDPOに集中することになりました。 235BモデルでのDPOでは、LoRAの設定、学習率、$\beta$、学習対象層、データ構成といったハイパーパラメータの綿密な探索を実施。MoEルーターの学習を含めるとHLEスコアが低下すること、高すぎるLoRA rank/alphaは学習を不安定にすること、そして特定の学習率（2e-5）と$\beta$（0.075）の組み合わせが安定した性能向上（HLEスコア17.77から19.12へ）をもたらすことを突き止めました。本記事は、大規模LLMを競争環境下で最適化する際の現実的な課題と、SFTの限界、DPOの有効性、そしてハイパーパラメータチューニングの重要性を浮き彫りにします。ウェブアプリケーションエンジニアにとって、高性能LLMを特定の目的に合わせて微調整する際の戦略立案、技術選定、およびMoEモデル特有の考慮事項に関する実践的な示唆に富んでいます。

元記事を読む他のサマリーを見る