概要
LayerXは、複雑なAI明細仕訳データセットの作成においてCodeAgentを検証し、特にGPT-5モデルでは直接LLM推論でもCodeAgentに匹敵する精度が実現可能であることを明らかにした。
詳細内容
LayerXのAI・機械学習部は、請求書明細から会計仕訳を自動生成する「AI明細仕訳機能」の内製モデル開発において、データセット作成の難題に直面した。既存の仕訳データは、顧客による合算処理などが含まれるため、請求書上の明細行と単純な1対1対応にならず、機械学習モデルの教師データ作成が極めて困難だった。この複雑なデータ突合と金額計算を自動化するため、同社はPythonコードを生成・実行するCodeAgent(HuggingFaceのsmolagentsフレームワークを使用)の有効性を検証した。
CodeAgentは、複数のツール呼び出し、ループや条件分岐などの複雑な制御フロー、中間結果の保存、そして広範なPythonエコシステムを活用できる点で、従来のAgentよりも柔軟な処理を実現する。これにより、テーブルデータの操作、金額の総当たり計算、バリデーションといった複雑なロジックをコードでシンプルに表現し、高速にアノテーションデータを生成できると期待された。
実験では、CodeAgentと単純なLLM推論(Requests API)の精度をJaccard係数、Precision、Recallで比較。結果として、CodeAgentは良好な精度を示したものの、GPT-5モデルをベースラインとした場合、`reasoning_effort`パラメータを高く設定するだけでCodeAgentに匹敵する、あるいはそれ以上の高精度を、場合によってはより低いレイテンシで達成できることが判明した。これは、複雑なタスクにおいても、高性能なLLMであれば必ずしもAgentフレームワークに頼らずとも優れた成果を出せる可能性を示唆する重要な発見だ。
しかし、CodeAgentの大きな利点として、実行されたコードがログとして残るため、デバッグが飛躍的に容易になる点が挙げられる。例えば、税込み変換時の四捨五入といった端数処理の失敗など、具体的な問題点をコードレベルで特定し、プロンプト改善に直結させることが可能となる。LayerXは、今回のタスクではGPT-5の直接推論が効率的であるとしつつも、CodeAgentの適用領域を今後も精査し、より高度な最適化タスクなど、コード表現が真価を発揮するユースケースでの活用を目指している。