HalluHard: 高難度のマルチターン・ハルシネーション評価ベンチマーク

概要

HalluHardは、法務や医療などの専門領域においてマルチターン対話を通じてLLMのハルシネーションを厳格に評価する、既存指標より遥かに難易度の高いベンチマークです。

詳細内容

本研究は、既存のハルシネーション評価指標が飽和しつつある現状を打破するため、より困難で実戦的なベンチマーク「HalluHard」を提案しています。法務、研究、医療、コーディングの4つの専門ドメインを対象に、ユーザー役のLLMが生成するフォローアップ質問を含む3ターンの対話を評価します。検証プロセスは、単なる引用文献の有無だけでなく、PDFを含むフルテキストを解析して主張の内容が実際に根拠に基づいているかをチェックする厳格なものです。分析の結果、GPT-5.2やClaude-Opusなどの最新モデルでも約30%のハルシネーションが発生しており、特に「セルフコンディショニング」による誤りの増幅や、推論能力の向上が必ずしも正確性に直結しないといった、LLMの信頼性における新たな課題が浮き彫りになりました。

元記事を読む他のサマリーを見る