概要
https://zenn.dev/knowledgesense/articles/c2baff28b7b2fa
詳細内容
## RAGが苦手な「膨大な会話データ」を検索可能に
https://zenn.dev/knowledgesense/articles/c2baff28b7b2fa
分類・構造化によって、RAGが苦手とする大規模な会話データからの高精度な情報抽出を可能にする。
**Content Type**: 🔬 Research & Analysis
**Language**: ja
**Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:4/5
**Main Journal**: 84/100 | **Annex Potential**: 83/100 | **Overall**: 84/100
**Topics**: [[RAG, Hindsight, 会話データ構造化, 長期記憶, ハルシネーション対策]]
株式会社ナレッジセンスの須藤氏による本記事は、膨大な会話データをRAG(検索拡張生成)で扱う際、従来の手法では精度が低下するという課題に対し、会話を構造化して記憶する手法「Hindsight」を紹介している。従来のRAGは、保存されたデータが「正しい事実」であることを前提としている場合が多く、LLM自身の過去のハルシネーションやユーザーの誤った情報が混在する会話データとは相性が悪い。このノイズが検索精度を下げ、会話の一貫性を損なう原因となっていた。
筆者が提示する「Hindsight」の最大の特徴は、蓄積する会話データをその性質に応じて4つのカテゴリーに分類・構造化する点にある。1つ目は「World(客観的な事実)」で、立場によらず変わらない普遍的な情報を指す。2つ目は「Experience(LLMの行動記録)」で、過去にどのような思考を経て何を提案したかという履歴を保存する。3つ目は「Opinion(LLMの主張・価値観)」であり、LLMの主観的な判断を事実と切り離して管理する。最後は「Observation(特定の対象に関する属性情報)」で、ユーザーの生年月日など特定のプロファイルを抽出・保存する。このように情報を分類しておくことで、検索時にユーザーの入力内容に合わせて、関連性の高い情報のみをノイズを排除して抽出することが可能になる。
本手法の有効性はベンチマーク結果でも示されている。OSS-20Bモデルを用いた評価では、会話履歴をそのままコンテキストに含める手法(Full-context)の精度が39.0%であったのに対し、Hindsightは83.6%と大幅な改善を記録した。また、Gemini-3を用いた既存のメモリ機能「Supermemory」との比較においても、6.2%の精度向上(91.4%)を達成している。筆者は、情報の分類が会話精度を改善する上で極めて重要な観点であると結論づけており、一貫性のある高度な対話型エージェントの構築を目指すエンジニアにとって、実装戦略の大きなヒントとなる内容である。