概要
LLMの内部表現から「拒絶(refusal)」を司るベクトルを特定・除去し、再学習なしでモデルのガードレールを解除するメカニスティック・インタープリタビリティ・ツール。
詳細内容
OBLITERATUSは、大規模言語モデル(LLM)の拒絶行動をメカニスティック・インタープリタビリティ(機械論的解釈可能性)に基づいて特定・除去するための、最も高度なオープンソースツールキットです。本ツールは「Abliteration(アブリタレーション)」と呼ばれる技術を実装しており、SVD(特異値分解)やPCA、スパース・オートエンコーダなどを用いてモデルの隠れ状態から拒絶反応を司る方向を抽出します。そして、その方向をモデルの重みから数学的に投影除去(プロジェクトアウト)することで、言語モデルの推論能力を損なうことなく、人工的な拒絶行動のみを排除します。
単なる除去ツールに留まらず、15種類以上の分析モジュールを搭載しているのが特徴です。例えば、DPOやRLHFといった学習手法の痕跡を特定する「Alignment Imprint Detection」、拒絶メカニズムが単一か複数かを幾何学的に分析する「Concept Cone Geometry」、除去後の自己修復リスクを評価する「Defense Robustness Evaluation」などが含まれます。また、分散型研究プラットフォームとしての側面も持ち、ユーザーが実行した結果を匿名で集約することで、コミュニティ全体でモデルのアライメント構造を解明するオープンサイエンス的なアプローチを採用しています。GradioベースのUI、Python API、CLI、YAML設定ファイルなど、多様な利用形態をサポートしています。