## 生成AIを活用した機能の"揺らぎのある"アウトプットをどう評価するか

概要

https://tech.smarthr.jp/entry/2025/11/26/124958

詳細内容

## 生成AIを活用した機能の"揺らぎのある"アウトプットをどう評価するか https://tech.smarthr.jp/entry/2025/11/26/124958 SmartHRが生成AIを用いた「分析スタートナビ」機能開発において、不確定なAI出力の品質をユーザー視点で評価し、リリースを判断したプロセスを解説しています。 **Content Type**: 📖 Tutorial & Guide **Language**: ja **Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 91/100 | **Annex Potential**: 88/100 | **Overall**: 88/100 **Topics**: [[生成AI評価, LLM品質保証, ユーザーシナリオ, プロダクト開発, テスト自動化]] SmartHRは、人事データを分析する「HRアナリティクス機能」に生成AIを活用した「分析スタートナビ」を導入する際、出力が一定しないAI機能の品質評価という課題に直面しました。従来の仕様定義では「品質」を測りきれないため、「成功の定義」を明確化すべく、ユーザーの利用シーンの解像度を高めるアプローチを採用しました。まず、ペルソナ（例: IT経験の少ない人事部長・佐藤さん）と具体的なユーザーシナリオ（例: 法定資格保有者の配置確認）を策定。これにより、AIが出力すべき「良いアウトプット」の仮説を立て、妥当性、有用性、わかりやすさ、完全性、一貫性といった評価軸を導出しました。評価方法としては、定性評価と定量評価を組み合わせることを選択。重要なユーザーシナリオについては人間が評価する「HUMAN as a Judge」（約20ケース）で定性的に詳細な品質を確認し、全体的な品質傾向を効率的に把握するためにはLLMを評価者とする「LLM as a Judge」（約100ケース）を導入しました。特にLLM as a Judgeでは、理想の回答とAIの出力結果の差分を3段階でスコアリングし、客観的な定量評価を実現。これらの評価基盤はGoogle ColabとGeminiを活用して実装され、プロンプトやロジック変更時の品質チェック体制を確立しました。最終的なリリース判断は、「必須ケースで過去より劣る評価がない」「ユーザーが困る致命的な問題がない」といった必須条件と、「平均スコアが前回バージョン以上」という品質基準に基づいて行われました。この評価アプローチにより、単なる精度数値ではなく「ペルソナが課題を解決できる」という具体的な価値を定義し、根拠を持ってリリースを判断できたとSmartHRは説明しています。本記事は、生成AIの「揺らぎ」を前提とした開発において、ユーザー体験の質を重視した評価設計の重要性、定量と定性の組み合わせの有効性、そしてユーザーシナリオが継続的な開発の基盤となるという3つの知見を強調しています。

元記事を読む他のサマリーを見る