## DeepSeekが推論モデル「R1」をわずか4400万円でトレーニングしたと発表、512基のNVIDIA H800チップを80時間使用

概要

https://gigazine.net/news/20250919-secrets-deepseek-ai-model-reveal/

詳細内容

## DeepSeekが推論モデル「R1」をわずか4400万円でトレーニングしたと発表、512基のNVIDIA H800チップを80時間使用 https://gigazine.net/news/20250919-secrets-deepseek-ai-model-reveal/ DeepSeekが、数学やコーディングに優れた推論モデル「DeepSeek R1」がわずか4400万円でトレーニングされた詳細とその革新的な学習手法を公開しました。 **Content Type**: 📰 News & Announcements **Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:4/5 **Main Journal**: 82/100 | **Annex Potential**: 80/100 | **Overall**: 80/100 **Topics**: [[DeepSeek R1, AIモデルトレーニングコスト, 強化学習, モデル検証, 推論モデル]] 中国のAIスタートアップDeepSeekは、数学やコーディングなどの推論タスクに特化した強力なモデル「DeepSeek R1」のトレーニング詳細を公開し、その驚異的なコスト効率が大きな注目を集めています。基盤となるLLMの開発には約8.9億円を投じましたが、R1自体のトレーニングはわずか29万4000ドル（約4400万円）という破格のコストで、512基のNVIDIA H800チップを80時間使用して行われたことが明らかになりました。この発表は、競合他社のAIモデルと比較してはるかに低いコストで最先端の推論性能を実現したことを示しており、高額なリソースなしに高性能AIモデルを開発できる可能性を強く示唆しています。これは、AIを活用したアプリケーション開発を進めるウェブアプリケーションエンジニアにとって、技術選定やコスト戦略を再考させる重要な示唆を与えます。特に、DeepSeek R1がオープンウェイトモデルとして提供され、既にHugging Faceで1090万回以上ダウンロードされているという事実は、その技術が広く利用・検証されており、実用的な価値を持つことを裏付けています。技術的な核心は、「純粋強化学習」という自動試行錯誤法にあります。これは人間が選んだ推論例を模倣するのではなく、正解に到達した場合にAIモデルが報酬を得られるように設計することで、モデル自身が「人間が教えたやり方をなぞらず自身の作業を検証する」などの推論戦略を自律的に学習するという画期的な手法です。さらに、DeepSeekはトレーニング効率を高めるために「グループ相対方策最適化(GRPO)」を採用し、試行ごとに独自に評価を下し、別のアルゴリズムを必要とせずに自己評価を行うことで、リソースを最小限に抑えつつ効率的な学習を実現しています。このモデルに関する論文が、著名なLLMとして初めて科学誌Natureで査読プロセスを経たことも特筆すべき点です。これはAI開発における透明性と科学的厳密さの重要性を確立するものであり、今後のAIモデルの妥当性やリスク評価において、エンジニアがより信頼性の高い情報を得られる道を開くものです。DeepSeek R1が2025年に入ってLLMに強化学習を適用した研究のほぼすべてに影響を与えたという事実は、その技術革新が業界全体に波及していることを示しており、効率的かつ高性能なAI開発手法に関心を持つエンジニアにとって見過ごせない動向と言えるでしょう。

元記事を読む他のサマリーを見る