掲載済み (2025-12-20号)
#125 429文字 • 3分

## MINISFORUM、MS-S1 MAXを4台連結して“非蒸留”のDeepSeek-R1 671Bを駆動

日本語

掲載情報

概要

https://pc.watch.impress.co.jp/docs/news/2071905.html

詳細内容

## MINISFORUM、MS-S1 MAXを4台連結して“非蒸留”のDeepSeek-R1 671Bを駆動 https://pc.watch.impress.co.jp/docs/news/2071905.html MINISFORUMは、ミニPC「MS-S1 MAX」4台を連結したクラスターにより、巨大な非蒸留DeepSeek-R1 671Bの推論デモを成功させ、GPU構成と比較して大幅なコスト・消費電力削減を実現しました。 **Content Type**: ⚙️ Tools **Language**: ja **Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:4/5 **Main Journal**: 78/100 | **Annex Potential**: 79/100 | **Overall**: 80/100 **Topics**: [[ミニPC, LLM推論, 分散処理, DeepSeek-R1, 省電力コンピューティング]] MINISFORUMはAMDとの共同発表会で、画期的なAI推論デモを実施しました。同社のミニPC「MS-S1 MAX」(Ryzen AI Max+ 395、メモリ128GB搭載)を4台連結したクラスターを構築し、通常は高性能GPUクラスターを必要とする6,710億パラメータの巨大なLLM「DeepSeek-R1 671B」の“非蒸留モデル”を動作させたものです。 DeepSeek-R1のような大規模モデルは、その膨大なパラメータ数から、一般的なPCでローカル実行するには、より小型の「蒸留モデル」に変換されることがほとんどです。しかし、今回のデモでは、合計512GBのメモリを持つ4台のMS-S1 MAXクラスターをUSB4で相互接続し、「llama.cpp」を用いて分散処理することで、約400GBのQ4_K_M量子化モデルながら非蒸留のDeepSeek-R1を駆動させることに成功しました。推論速度は11トークン/秒を記録しています。 このデモの最も重要な点は、その効率性です。MINISFORUMは、GeForce RTX 5090を5U構成で用いた場合と比較して、体積を約65%、消費電力を約80%、そして総コストを最大77%削減できると主張しています。 Webアプリケーションエンジニアにとって、これは単なる技術デモ以上の意味を持ちます。通常、大規模なLLMのローカル推論は、高価で消費電力の大きいGPUハードウェアに依存しますが、このミニPCクラスターによるアプローチは、大幅なコスト削減、省スペース化、省電力化を実現する可能性を示唆しています。これにより、クラウドベースのGPUリソースに過度に依存することなく、ローカル環境での高性能なAI開発や、エッジデバイスでのLLMデプロイ、プライバシーに配慮したオフライン処理など、新たな開発・運用モデルが現実味を帯びてきます。特に、開発初期段階での検証や、特定のビジネスロジックに特化したカスタムLLMのローカル運用を検討しているエンジニアにとっては、将来的な選択肢を広げる画期的な一歩となるでしょう。