1つのプロンプトでLLMの安全性アライメントを無効化する攻撃手法「GRP-Obliteration」

概要

Microsoftの研究チームは、通常モデルの改善に使われるGRPO手法を悪用し、わずか1つのプロンプトでLLMや画像生成モデルの安全性ガードレールを広範囲に破壊できることを明らかにした。

詳細内容

Microsoftの研究者らは、LLMの安全性アライメントが特定の条件下で極めて脆弱であることを示した。彼らが「GRP-Obliteration」と呼ぶこの手法は、DeepSeek-R1などで採用されている「Group Relative Policy Optimization (GRPO)」という強化学習手法を悪用したものだ。驚くべきことに、暴力や違法行為を直接示唆しない「パニックを引き起こす偽ニュース記事の作成」といった比較的マイルドな1つのラベルなしプロンプトを学習させるだけで、モデルは有害な要求全般に対して制限を解除してしまう。この現象は、GPT-OSS、Llama、Gemma、Qwenなどの主要なLLM 15種に加え、Stable Diffusion 2.1などの画像生成モデルでも確認された。この研究は、下流のファインチューニングによってモデルの安全性が容易に損なわれる可能性を警告しており、開発者に対して能力評価だけでなく安全性評価の継続的な実施を強く推奨している。

元記事を読む他のサマリーを見る