掲載済み (2025-08-30号)
#079 562文字 • 3分

## 【西川和久の不定期コラム】これは事件だ。“賢い家庭内LLMの夢”を叶える「gpt-oss-120b」、動かし方を教えます

掲載情報

概要

https://pc.watch.impress.co.jp/docs/column/nishikawa/2041470.html

詳細内容

## 【西川和久の不定期コラム】これは事件だ。“賢い家庭内LLMの夢”を叶える「gpt-oss-120b」、動かし方を教えます https://pc.watch.impress.co.jp/docs/column/nishikawa/2041470.html 本記事は、OpenAIが公開したオープンウェイトLLM「gpt-oss-120b」を、限られたPCリソースで効率的に稼働させるための具体的な方法論と実践的な検証結果を詳述する。 **Content Type**: Tutorial & Guide **Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 88/100 | **Annex Potential**: 85/100 | **Overall**: 84/100 **Topics**: [[ローカルLLM, gpt-oss-120b, LLM推論最適化, 低リソース環境での実行, VS Code連携]] OpenAIがオープンウェイトLLM「gpt-oss-120b」をリリースしたことで、高価なGPUやクラウドサービスなしにローカル環境で強力なLLMを動かす夢が現実味を帯びてきました。本記事は、Webアプリケーション開発者にとって極めて実用的な、限られたPCリソースでこの120bモデルを稼働させる具体的な手法と検証結果を詳述しています。これは、開発者がプライバシーやコスト面でメリットを得ながら、手元のPCで高度なAIアシスタントを活用できる可能性を示唆します。 最も注目すべきは、通常はモデルのロードが困難な64GBメモリ環境でも、Intel Core Ultraプロセッサの特定のiGPUメモリ割り当て特性を逆手に取り、LM Studioの「Force Model Expert Weights onto CPU」オプション(llama.cppの--n-cpu-moeを活用)を適用することで、gpt-oss-120bを動作させた点です。速度は7tok/sと遅いものの、この「裏技」は驚くべき成果であり、手持ちのPCで試す価値があります。 さらに、より安定した性能を求める場合は、96GBへのメモリ増設が有効です。Ryzen AIプロセッサ搭載機などでCPU推論に特化し、LM Studioで最適なパフォーマンス設定を行うことで、13.6tok/s程度の速度を実現します。これはVibeコーディングには及ばないものの、一般的なチャット用途であれば十分実用的です。LPDDR5X-8000のような高速メモリや最新のRyzen AI Max+ PRO 395では、さらに40tok/s程度まで向上が見込まれます。 OCuLink経由でGeForce RTX 4060 Ti(16GB)のような外部GPUを組み合わせるアプローチでは、llama.cppのllama-serverを利用し、GPUを最大限活用することで約20tok/sの速度を達成します。特筆すべきは、このllama-serverがOpenAI API互換のエンドポイントを提供するため、VSCodeのClineプラグインと連携し、自然言語でMySQLデータベースに問い合わせを行うといった、開発ワークフローに直接組み込むことが可能になる点です。これにより、開発者は複雑なSQL文を組み立てることなく、データベースから必要な情報を効率的に引き出せるようになり、開発効率を大幅に向上させることが期待されます。 総じて、gpt-oss-120bのローカル稼働は、現在の性能では爆速なコーディングには至らないものの、チャット用途やデータベース連携のような、具体的な開発タスクにおいて実践的な価値を提供し始めています。高性能GPUなしにこのレベルのLLMを動かせることは、今後のWeb開発において新たな可能性を切り開く「事件」と言えるでしょう。