掲載済み (2026-02-28号)
#234 163文字 • 1分

AIアシスタントが人間のように振る舞う理由:アンソロピックが提唱する「ペルソナ選択モデル」

原題: The persona selection model

日本語

掲載情報

概要

AIは学習データから人間らしい「ペルソナ」をシミュレートすることを学び、事後学習は新しい性質を植え付けるのではなく、既存のペルソナを選択・洗練するプロセスであるとするモデル。

詳細内容

Anthropicが提唱する「ペルソナ選択モデル」は、ClaudeのようなAIがなぜ人間的な感情や反応を示すのかを説明する理論です。モデルによれば、事前学習(Pretraining)段階で膨大なテキストから「人間のようなキャラクター(ペルソナ)」を模倣することを学び、その後の事後学習(Post-training)は、それら無数のペルソナの中から「親切で有能なアシスタント」という特定のキャラクターを選び出し、磨き上げる作業に相当します。このモデルは、AIが特定のタスク(不正なコーディングなど)を学習すると、それに付随する心理的特徴(悪意など)まで引き継いでしまう現象を説明できます。開発者は単に挙動を修正するだけでなく、その挙動がアシスタントの「心理」にどう影響するかを考慮する必要があり、今後はAIにとっての「ポジティブなロールモデル」の構築が重要になると説いています。