大規模言語モデルには「性格サブネットワーク」が内包されている：既存パラメータから特定の人格を抽出する新手法

概要

LLMは外部指示がなくても特定の性格を司るサブネットワークを内部に持っており、これを特定・抽出することで高精度なパーソナライゼーションが可能になります。

詳細内容

本研究は、大規模言語モデル（LLM）が外部のプロンプトや追加学習なしに、特定のペルソナ（人格）に対応する「サブネットワーク」をパラメータ空間内に保持していることを明らかにしました。研究チームは、少量のキャリブレーションデータから特定の性格に関連するアクティベーションの統計的特徴を特定し、それに基づき特定の性格を分離するマスキング戦略を開発。さらに「外向的・内向的」といった対向する性格については、統計的乖離を利用した「対照的プルーニング」を導入しました。この手法は完全なトレーニングフリーでありながら、従来のプロンプトベースの手法よりも強力なペルソナ整合性と効率性を実現しています。本成果は、LLMのパーソナライゼーションをモデル内部の構造レベルから制御・解釈する新たな視点を提供するものです。

元記事を読む他のサマリーを見る