掲載済み (2026-02-21号)
#034 137文字 • 1分

AIプロダクトの品質をどう守る? - Langfuseによる「評価」とrunnによる「テスト」の実践

日本語

掲載情報

2026年2月21日土曜日号 アネックス掲載

概要

AI特有の不確実性に対し、期待値・精度・システム品質の3軸で品質を定義し、runnとLangfuseを使い分けて継続的な改善サイクルを回すQA手法の解説。

詳細内容

LayerX社の「バクラク勤怠」におけるAI機能(就業規則からの自動設定案作成)を例に、AIプロダクトの品質保証の実践方法を紹介しています。AIの品質を「期待値(UX調整)」「精度(評価基準)」「システム品質(信頼性)」の3軸で捉え、100%の正解がない中での受け入れ基準の作り方を提示。技術スタックとして、APIテストツール「runn」を用いたシステム全体のデグレ防止(結合テスト)と、LLM監視プラットフォーム「Langfuse」を用いたプロンプト単位の精度向上(ユニットテスト)を組み合わせています。特に、本番環境でのユーザーフィードバックや失敗ケースをLangfuseのデータセットに還元し、GitHub Actionsで自動評価する継続的改善のパイプラインは非常に実用的です。