LLM出力の精度90%→98%に。LLM-as-judgeとClaude Codeで自律チューニング

概要

LLM-as-judgeによる自動評価とClaude Codeの自律改善を組み合わせ、Thinking機能やプロンプト最適化によりLLMの分類精度を90.4%から98.6%まで引き上げた実践的検証。

詳細内容

GMOコネクト株式会社による、LLMの出力精度向上に向けた実験レポート。Redmineチケットの分類タスクにおいて、クラウドLLM（Gemini 3 Flash）を「審判（LLM-as-judge）」として使い、その評価結果をClaude Codeに渡してプロンプトを自律修正させるループを構築。結果、妥当率を90.4%から98.6%まで向上させた。さらに「Thinking機能（Reasoning）の有無」「プロンプト」「モデルサイズ」の3因子を分析し、Thinkingの有無が精度に最も大きく影響（+20pt）することを定量的に示した。機密データを扱うために少数のサンプルでクラウド上の改善サイクルを回し、完成したプロンプトをローカル環境（Ollama等）へ適用する実用的なワークフローも提案している。

元記事を読む他のサマリーを見る