ホーム › アーカイブ › 2026年3月14日土曜日号 › gpt-ossの推論を6倍速に。Thinking OFF設定と、Ollamaで効かない理由 掲載済み (2026-03-14号) #233 119文字 • 1分 gpt-ossの推論を6倍速に。Thinking OFF設定と、Ollamaで効かない理由 日本語 qiita.com/ntaka329 掲載情報 2026年3月14日土曜日号 未掲載 概要 gpt-ossの推論速度を最大6倍高速化する「Thinking OFF」設定の具体的な実装方法と、推論エンジンごとの挙動や精度への影響を検証した技術解説。 詳細内容 本記事は、gpt-oss等の推理型LLMにおいて思考プロセス(analysisチャネル)をスキップさせ、推論を劇的に高速化する「Thinking OFF」設定について詳説しています。具体的には、chat_templateを書き換えて空の解析ブロックを事前注入する手法を紹介しており、llama-serverやSGLangでの実装手順を公開しています。一方で、Ollamaでは独自のパーサーの影響でこの手法が効かない「罠」についても言及。ベンチマークでは推論時間が約1/6(12.4秒から2.0秒)に短縮される一方で、タスクの複雑さによっては精度が大幅に低下(-20pt程度)するトレードオフについても定量的データに基づいて分析しています。 元記事を読む 他のサマリーを見る ← 前のサマリー LLMにコードを書かせるなら知っておきたい「Karpathy Guidelines」を解説する #ClaudeCode 次のサマリー → LLMからエージェントへ:2026年に学ぶべきオープンソースAIプロジェクトまとめ