MSA：1億トークンのコンテキストを処理可能な端から端まで学習可能なメモリフレームワーク

概要

Memory Sparse Attention (MSA)は、スパースアテンションとドキュメントレベルRoPEを統合し、1億トークンという極限のコンテキスト長を精度を保ちつつ処理可能にする革新的なAIメモリフレームワークです。

詳細内容

従来のLLMが直面していたコンテキスト長の限界（128K〜1M程度）を打ち破る「Memory Sparse Attention (MSA)」が登場しました。このフレームワークは、1億トークンという膨大な情報を、端から端まで学習可能な暗黙的メモリとして扱うことができます。主な技術的特徴は以下の通りです： - **可溶性スパースアテンションとドキュメントレベルRoPE**: 訓練時（64K）から推論時（1億）への極端な外挿を可能にし、計算量を線形（O(L)）に抑えることで、16Kから1億トークンへのスケールアップでも性能低下を9%未満に留めています。 - **KVキャッシュ圧縮とメモリ並列推論**: 文献情報をGPU/CPU/ホストメモリに効率的に分散配置し、A800 GPU 2枚という限定的な環境で1億トークンのスループットを実現します。 - **メモリ・インターリービング**: 「検索→コンテキスト拡張→生成」を適応的に繰り返すことで、分散した情報源を跨ぐ多段階推論（Multi-hop Reasoning）の能力を大幅に向上させています。ベンチマーク結果では、既存のRAG手法や長文特化型モデルを凌駕しており、特に「大海撈針（NIAH）」テストにおいて100万トークン時でも94.84%の精度を維持するなど、圧倒的な安定性を示しています。

元記事を読む