ローカルLLM(Ollama)でのFunction Calling成功率検証：100回試行で見えた実態と対策

概要

Ollamaを用いたローカルLLM（Llama 3.2 3B）のFunction Calling精度を100回検証し、87%の成功率と特有の出力課題（スキーマ混入や多言語混在）を明らかにした実証レポート。

詳細内容

本記事は、Ollama環境下でのローカルLLM（Llama 3.2 3B）におけるFunction Calling（ツール呼び出し）の信頼性を100回の試行によって実測した記録です。検証の結果、ツール呼び出し成功率は87%に達し、JSONの構文エラー自体は0件であったことが判明しました。主な失敗要因は「ツールを使わずテキストで回答してしまう」判断のブレにあります。また、成功した回答の中にも、引数の中にツール定義のスキーマ（descriptionやtype）が混入する「スキーマ汚染」や、日本語に対して中国語・韓国語が混ざる多言語混在の出力といったローカルモデル特有の挙動が確認されました。これらを踏まえ、著者は実用性を高めるための具体策として、リトライ処理の実装、Pydanticによる厳格な型バリデーション、推論を安定させるためのウォームアップリクエストの実行、およびtool_choice指定の検討を提案しています。無料かつオフラインで動作するローカルAIエージェント構築のための現実的な指針を示す内容です。

元記事を読む他のサマリーを見る