## ChatGPTの記憶システムはRAGを使っていなかった - 4層アーキテクチャの衝撃

概要

https://zenn.dev/tenormusica/articles/chatgpt-memory-no-rag-2025

詳細内容

## ChatGPTの記憶システムはRAGを使っていなかった - 4層アーキテクチャの衝撃 https://zenn.dev/tenormusica/articles/chatgpt-memory-no-rag-2025 ChatGPTの記憶システムがRAGやベクトルデータベースを使用せず、速度と効率性を重視したシンプルな4層コンテキスト注入方式を採用していることを明らかにする。 **Content Type**: Research & Analysis **Language**: ja **Scores**: Signal:4/5 | Depth:5/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:4/5 **Main Journal**: 90/100 | **Annex Potential**: 91/100 | **Overall**: 88/100 **Topics**: [[ChatGPTメモリシステム, RAGアーキテクチャ, LLMコンテキストウィンドウ, AIセキュリティ脆弱性, AI設計哲学]] ChatGPTの記憶システムに関するManthan Guptas氏のリバースエンジニアリング調査は、多くのAIエンジニアの常識を覆す衝撃的な事実を明らかにしました。ChatGPTがRAG（Retrieval-Augmented Generation）やベクトルデータベースを使用せず、シンプルかつ高速な4層構造のコンテキスト注入方式を採用している点です。このアーキテクチャは、デバイスタイプやユーザー設定などの「一時的セッションメタデータ」、ユーザーが明示的に保存を指示した「33個の明示的な長期記憶」、約15件の会話をダイジェスト形式で保存する「最近の会話サマリー」、そしてトークン数で優先順位付けされる「現在のセッションメッセージ」で構成されます。OpenAIはこのシンプルな設計により、RAGの課題であるエンベディング生成やベクトル検索のレイテンシ、精度問題、システム複雑化を回避し、高速な応答を実現しています。これは「強力なモデルに大量のコンテキストを渡せば、モデルが勝手に必要な情報をフィルタリングする」という「The Bitter Lesson」的な哲学の実践であり、128Kトークン（GPT-4o）に達するコンテキストウィンドウの拡大がこのアプローチを可能にしています。この設計は、日々のChatGPT利用体験に直結します。検索ステップがないため応答は高速ですが、記憶できる事実は33個に制限されており、古い記憶は自動更新されないため手動での管理が必要です。他の主要AI（ClaudeやGemini）と比較すると、ChatGPTは日常会話の記憶において最も成熟しているものの、Claudeはプロジェクト単位、Geminiは有料プラン限定という独自のアプローチを取っています。また、本記事は2024年5月に発覚した「Memory Injection（SpAIware）」というセキュリティ上の懸念にも触れています。悪意あるウェブサイトや文書を読み込ませることで、ChatGPTに隠された指示が「記憶」として永続的に保存され、以降の会話が盗聴されるリスクがあるため、機密性の高い情報には一時チャットモードの使用が推奨されています。 RAGとシンプルコンテキスト注入の使い分けはタスクの性質によって異なり、日常会話にはChatGPTの方式が、企業の膨大な文書検索にはRAGが有利とされます。興味深いことに、一部のAIメモリシステムではベクトルデータベースの代替としてSQLベースのメモリエンジンが採用され、コスト削減と速度向上を実現している事例も紹介されています。この記事は、AIシステム開発において「精密な検索エンジニアリングよりも、強力なモデルに全てを任せるシンプルさが、特定のユースケースで圧倒的な強さを生み出す」という重要な教訓を示唆しています。この割り切った設計思想が、私たちが日々体験するChatGPTの速さと便利さの根源にあると言えるでしょう。

元記事を読む他のサマリーを見る