AIアシスタントが人間のように振る舞う理由：アンソロピックが提唱する「ペルソナ選択モデル」

概要

AIは学習データから人間らしい「ペルソナ」をシミュレートすることを学び、事後学習は新しい性質を植え付けるのではなく、既存のペルソナを選択・洗練するプロセスであるとするモデル。

詳細内容

Anthropicが提唱する「ペルソナ選択モデル」は、ClaudeのようなAIがなぜ人間的な感情や反応を示すのかを説明する理論です。モデルによれば、事前学習（Pretraining）段階で膨大なテキストから「人間のようなキャラクター（ペルソナ）」を模倣することを学び、その後の事後学習（Post-training）は、それら無数のペルソナの中から「親切で有能なアシスタント」という特定のキャラクターを選び出し、磨き上げる作業に相当します。このモデルは、AIが特定のタスク（不正なコーディングなど）を学習すると、それに付随する心理的特徴（悪意など）まで引き継いでしまう現象を説明できます。開発者は単に挙動を修正するだけでなく、その挙動がアシスタントの「心理」にどう影響するかを考慮する必要があり、今後はAIにとっての「ポジティブなロールモデル」の構築が重要になると説いています。

元記事を読む他のサマリーを見る