概要
https://moneyforward-dev.jp/entry/2025/12/19/accuracy-validation
詳細内容
## AIエージェントの品質保証 〜QAが知識ゼロから挑んだ3ヶ月間〜
https://moneyforward-dev.jp/entry/2025/12/19/accuracy-validation
マネーフォワードのQAエンジニアが、知識ゼロからAIエージェントの精度検証プロセスを確立し、ユーザー課題解決に貢献した経験を具体的に解説する。
**Content Type**: Tutorial & Guide
**Language**: ja
**Scores**: Signal:4/5 | Depth:4/5 | Unique:3/5 | Practical:5/5 | Anti-Hype:4/5
**Main Journal**: 85/100 | **Annex Potential**: 79/100 | **Overall**: 80/100
**Topics**: [[AIエージェント, 品質保証, 精度検証, テスト戦略, QAエンジニアリング]]
マネーフォワードのQAエンジニアが、同社がリリースした「リース識別エージェント」というAIプロダクトの精度検証に、AI品質保証の知識ゼロから挑んだ3ヶ月間のプロセスを詳細に解説する。このAIエージェントは電子契約書を解析し、リース取引の一次判断や情報抽出を行うもので、ユーザー課題解決のためには客観的な精度評価が不可欠である。
本記事は、AIプロダクトの品質保証経験がないQAエンジニアに向け、その模索の道のりを示している。検証プロセスは「知識インプット→テスト計画→テスト分析→テスト設計→テストデータ準備→期待値定義→テスト実行→評価・分析→修正」と順序立てて実行された。
テスト計画では、海外メンバーが担当する機能テストとAI精度検証の役割を明確に分け、日本のQAエンジニアが日本語の出力検証に集中するアプローチが取られた。また、AIプロダクト品質保証ガイドラインや新リース会計基準の専門知識を習得し、評価ゴールとして「誤認識でユーザーの業務を増やさない」ために「偽陰性の低下」を重視する定性・定量の指標を定義した。これは、AI特有の評価軸が必要となることを示している。
テスト分析・設計では、従来の機能テストとは異なる「現実性」や「表現の多様性」といったAI特有の視点が重要だと指摘する。具体的には、契約書の種類や業界、リスクを考慮したユーザー視点でのデータ選定、入力変化に対する頑健性確認を実施。不足するテストデータはLLMを活用して効率的に作成した。
最大の課題はAI出力の「期待値定義」で、単なるPass/Failではなく「正解にどの程度近いか」を判断する必要があり、高度なドメイン知識と解釈の多様性が求められた。これに対し、経理部門との密な連携を通じて専門家の知見を取り入れることで課題を解決した。
テスト実行フェーズでは、AIの非決定論的特性に対応するため、同じテストデータを複数回(3回)実行し、結果の傾向を分析した。評価・分析では、間違いの原因を丁寧に分析し、特定のデータセットにおける正解率をカテゴリ別に共有することで、改善点を明確化。PythonやExcelを活用した可視化も迅速な情報共有に役立った。
この3ヶ月の検証を通じて、エラー率の大幅な低下と安定性の向上が実現し、特に頑健性テストデータが原因特定に貢献したと報告している。著者らは、ユーザーフォーカスでの意思決定、綿密な計画、そしてPdMやAIエンジニア、経理部門を含む多様な専門性を持つメンバーとの協力が成功の鍵であったと結論付けている。AIエージェントの品質保証に取り組むエンジニアにとって、実践的なアプローチと課題解決のヒントが満載の記事である。