掲載済み (2025-11-15号)
#063 543文字 • 3分

## Qwen3、GLM、GPT-ossなどクソデカ言語モデルを試したところGLM-4.5-Airがお気に入り

日本語

掲載情報

概要

https://nowokay.hatenablog.com/entry/2025/11/06/065327

詳細内容

## Qwen3、GLM、GPT-ossなどクソデカ言語モデルを試したところGLM-4.5-Airがお気に入り https://nowokay.hatenablog.com/entry/2025/11/06/065327 著者はMac Studio上で複数の大規模言語モデルを実際に試用し、ローカル環境での実用性、コーディング能力、対話継続性などを詳細に評価した結果、GLM-4.5-Airが最もバランスに優れていると結論付けている。 **Content Type**: ⚙️ Tools **Language**: ja **Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5 **Main Journal**: 88/100 | **Annex Potential**: 87/100 | **Overall**: 88/100 **Topics**: [[大規模言語モデル, ローカルLLM実行, LLM性能比較, Mac Studio, AIコーディング支援]] 本記事は、Mac Studioを借りた著者が、GPT-oss、Qwen3系列、GLM系列、MiniMax M2、Kimi K2、DeepSeek-V3.1-Terminus、Llama 4系列といった様々な「クソデカ言語モデル」を実際にローカル環境で試用し、それぞれの実用性と性能を詳細に比較評価した報告である。特に、webアプリケーション開発に携わるエンジニアがローカル環境でAIモデルを活用する際の具体的な指針を提供している点が重要だ。 著者は、多数のモデルを試した結果、GLM-4.5-Airが最もバランスが良く、コーディング能力も高いと評価し、Macでの実用モデルとして推薦している。他のモデルについては、以下のような具体的な所見が述べられている。 * **GPT-oss 120B**: 能力は高くないにもかかわらず生意気な振る舞いをし、文章作成(特に物語)が苦手で箇条書きを多用する傾向がある。 * **Qwen3-Next 80B**: 単発のクエリには強いが、対話が続くと性能が落ちる。 * **200B以上のモデル**: Macでは入力プロンプトの処理に時間がかかりすぎ(コンテキストが長いと5分以上)、実用的ではない。ただし、要約など1ショットで完結するタスクであればGLM 4.6などが優れていると指摘。 * **Qwen3 Coder 480B**: 実装力が非常に高く、クラウド環境(例: さくらインターネット)での利用が推奨されている。 * **MiniMax M2**: 日本語が不安定でキリル文字が混じること、Roo Codeでのファイル作成がうまくいかないこと、対話が続くと頑固になる点が課題。 * **Llama 4 Maverick 400B**: 比較的小規模なモデルとの比較では悪くないが、同程度のモデルと競うには厳しい。Llama 4 Scout 109Bは「アホい」と評されている。 * **画像認識モデル**: Llama 4の画像認識性能は優秀であるものの、テキスト性能が低い。GLM 4.5Vはチャットテンプレートの問題でうまく動作せず、Qwen3-VL 235Bはテキスト性能は良いが画像エンコーダーは小さいモデル(Qwen3-VL 8Bなど)と同等であるため、画像目的であればGMKtec EVO-X2のような小さいモデルで十分であるとの見解を示している。 この評価は、理論的なベンチマークだけでなく、実際の開発環境におけるモデルの使い勝手やパフォーマンスのボトルネック、特定タスクへの適性など、Webアプリケーションエンジニアが直面する具体的な課題に即した貴重な情報を提供する。ローカル環境でのLLM導入を検討するエンジニアにとって、どのモデルが自身のハードウェアとユースケースに適しているかを判断するための、極めて実用的なガイドとなるだろう。