概要
https://zenn.dev/robustonian/articles/gpt_oss_bench
詳細内容
## gpt-ossの推論速度とShaberi3ベンチマーク結果まとめ
https://zenn.dev/robustonian/articles/gpt_oss_bench
本記事は、gpt-ossモデルのローカル推論速度と日本語性能を詳細にベンチマークし、異なるハードウェアにおける実用的な性能特性を明らかにします。
**Content Type**: 🔬 Research & Analysis
**Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 86/100 | **Annex Potential**: 86/100 | **Overall**: 88/100
**Topics**: [[LLMベンチマーク, ローカルLLM, 推論速度, 日本語LLM, ハードウェア性能比較]]
Webアプリケーションエンジニアにとって、生成AIをローカル環境で活用する動きが加速する中、モデルの性能とハードウェアとの相性は重要な検討事項です。本記事は、OpenAIが公開したgpt-ossの20Bおよび120Bモデルについて、推論速度と日本語性能を詳細にベンチマークした結果を共有しています。
推論速度は、Mac Studio (M2 Ultra)、RTX 3090、EVO-X2 (Ryzen AI Max+) の3種類の異なるハードウェア環境で、`llama.cpp`の`llama-bench`を用いて測定されました。その結果、RTX 3090はプロンプト処理が極めて高速である一方、Mac Studioはgpt-ossモデルにおいて良好なトークン生成速度を示し、特にFlash Attentionの有効性が際立ちました。EVO-X2は生成速度が健闘したものの、プロンプト処理の遅さが課題として浮上しており、今後のROCm正式対応による改善が期待されます。
日本語性能は、日本のLLM性能評価ベンチマーク「Shaberi3」を用いて評価されました。残念ながら、gpt-oss-20Bモデルは、推論レベルをMediumに設定したにもかかわらず、Qwen3-30B-A3B(Reasoningなし)に日本語性能で劣るという結果となりました。このことは、日本語を扱うローカルLLMとして、現状ではQwen3シリーズが品質・速度の両面で優位にある可能性を示唆しています。一方で、gpt-oss-120Bモデルは、Qwen3-235B-A22Bと比較して日本語性能がわずかに優れる傾向が見られ、またアクティブパラメータが小さいことから、同等の回答生成速度が期待できる点が強みとして挙げられています。
このベンチマークは、開発者がローカル環境でAIコーディングアシスタントやエージェントを構築する際に、どのモデルをどのハードウェアで利用すべきかという具体的な指針を提供します。特に、日本語を多用する開発現場では、モデル選定の際に単に話題性で選ぶのではなく、実測データに基づいた慎重な判断が求められることを示しています。Qwen3シリーズのReasoningなしでの高い日本語性能は、今後のローカルLLM選定における重要な比較対象となるでしょう。