## ローカルLLM基礎知識 2025

概要

https://speakerdeck.com/kishida/local-llm-basics-2025

詳細内容

## ローカルLLM基礎知識 2025 https://speakerdeck.com/kishida/local-llm-basics-2025 本資料は、Transformerの基本からローカルLLMを個人PCで動かすためのハードウェア、主要モデル、フレームワーク、ファインチューニングまで、Webアプリケーションエンジニアが知るべき基礎知識を網羅的に解説します。 **Content Type**: 📖 Tutorial & Guide **Language**: ja **Scores**: Signal:4/5 | Depth:4/5 | Unique:3/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 85/100 | **Annex Potential**: 79/100 | **Overall**: 80/100 **Topics**: [[ローカルLLM, LLMアーキテクチャ, ハードウェア要件, LLMモデル比較, ファインチューニング]] 岸田直樹氏による「ローカルLLM基礎知識 2025」は、Webアプリケーションエンジニアが個人PCで大規模言語モデル（LLM）を動かすための包括的な知識を提供します。著者は、オフライン利用、データ管理、カスタマイズ性、学習機会といったローカルLLMの利点を強調し、これらの恩恵を享受するための実用的な情報が提示されています。本資料は、LLMの基盤であるTransformerアーキテクチャから解説を開始し、アテンション機構と計算量に言及します。モデル実行に必要なメモリについては、16bit floatから4bit量子化への進化により、70億パラメータ（7B）モデルが14GBから3.5GBへと大幅に削減できることを解説。さらに、MoE（Mixture of Experts）構造が、必要な専門家モデルのみを呼び出すことでリソースを節約する仕組みも説明しています。具体的なハードウェアとして、NVIDIA製GPU（RTX 5060 Tiなど）やApple Silicon（Mac Studioなど）が推奨され、サーバーサービス（Open Router、さくらのAI）も紹介。AIの処理速度は今後も向上するが、賢さは不確かであると現実的な見通しを示しています。ローカルLLMのモデル選定では、Qwen3、Gemma 3、GPT-oss 20Bなどの「お手頃」モデルから、GLM 4.5 Air、Kimi K2といった「巨大」モデルまで、それぞれの日本語対応度と必要リソースが詳細に比較されます。チャット用途では8B以上、商用AIの代替としてはGPT-oss 20Bが推奨されており、日本語性能が高いGLM 4.5 Airが注目すべきモデルとして挙げられています。実行フレームワークとしては、PyTorch、Hugging Face Transformers、軽量なC++エンジンであるllama.cpp、Apple Siliconに最適化されたMLX、ファインチューニングフレームワークのUnslothが紹介されています。実行環境はLM Studio（推奨）、Ollama、Dockerなどが挙げられ、それぞれの特性と注意点が説明されています。最後に、LLMのカスタマイズ手法であるファインチューニングについて、CPT、SFT、RLHF、DPOといった種類と、データセットの準備、NVIDIA GPUが必要な実行環境（Google Colabが推奨）、モデル選定の方法が解説されています。著者は、ローカルLLMは小さい単機能用途が多くなると予測し、より大きなモデルでデータセットを作成し、小さなモデルをファインチューニングする戦略が、コストとレスポンスの両面で優位であると強調しています。

元記事を読む他のサマリーを見る