掲載済み (2025-11-29号)
#084 521文字 • 3分

## ローカルLLM基礎知識 2025

日本語

掲載情報

概要

https://speakerdeck.com/kishida/local-llm-basics-2025

詳細内容

## ローカルLLM基礎知識 2025 https://speakerdeck.com/kishida/local-llm-basics-2025 本資料は、Transformerの基本からローカルLLMを個人PCで動かすためのハードウェア、主要モデル、フレームワーク、ファインチューニングまで、Webアプリケーションエンジニアが知るべき基礎知識を網羅的に解説します。 **Content Type**: 📖 Tutorial & Guide **Language**: ja **Scores**: Signal:4/5 | Depth:4/5 | Unique:3/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 85/100 | **Annex Potential**: 79/100 | **Overall**: 80/100 **Topics**: [[ローカルLLM, LLMアーキテクチャ, ハードウェア要件, LLMモデル比較, ファインチューニング]] 岸田直樹氏による「ローカルLLM基礎知識 2025」は、Webアプリケーションエンジニアが個人PCで大規模言語モデル(LLM)を動かすための包括的な知識を提供します。著者は、オフライン利用、データ管理、カスタマイズ性、学習機会といったローカルLLMの利点を強調し、これらの恩恵を享受するための実用的な情報が提示されています。 本資料は、LLMの基盤であるTransformerアーキテクチャから解説を開始し、アテンション機構と計算量に言及します。モデル実行に必要なメモリについては、16bit floatから4bit量子化への進化により、70億パラメータ(7B)モデルが14GBから3.5GBへと大幅に削減できることを解説。さらに、MoE(Mixture of Experts)構造が、必要な専門家モデルのみを呼び出すことでリソースを節約する仕組みも説明しています。 具体的なハードウェアとして、NVIDIA製GPU(RTX 5060 Tiなど)やApple Silicon(Mac Studioなど)が推奨され、サーバーサービス(Open Router、さくらのAI)も紹介。AIの処理速度は今後も向上するが、賢さは不確かであると現実的な見通しを示しています。 ローカルLLMのモデル選定では、Qwen3、Gemma 3、GPT-oss 20Bなどの「お手頃」モデルから、GLM 4.5 Air、Kimi K2といった「巨大」モデルまで、それぞれの日本語対応度と必要リソースが詳細に比較されます。チャット用途では8B以上、商用AIの代替としてはGPT-oss 20Bが推奨されており、日本語性能が高いGLM 4.5 Airが注目すべきモデルとして挙げられています。 実行フレームワークとしては、PyTorch、Hugging Face Transformers、軽量なC++エンジンであるllama.cpp、Apple Siliconに最適化されたMLX、ファインチューニングフレームワークのUnslothが紹介されています。実行環境はLM Studio(推奨)、Ollama、Dockerなどが挙げられ、それぞれの特性と注意点が説明されています。 最後に、LLMのカスタマイズ手法であるファインチューニングについて、CPT、SFT、RLHF、DPOといった種類と、データセットの準備、NVIDIA GPUが必要な実行環境(Google Colabが推奨)、モデル選定の方法が解説されています。著者は、ローカルLLMは小さい単機能用途が多くなると予測し、より大きなモデルでデータセットを作成し、小さなモデルをファインチューニングする戦略が、コストとレスポンスの両面で優位であると強調しています。