概要
LLM特有の文体とされるダッシュやコロンの多用が、モデルファミリーごとのInstruct Tuning(報酬モデルの設計)に依存することを実験で証明した調査レポート。
詳細内容
ChatGPTなどのLLMがem dash(—)やコロン(:)を多用する傾向の起源を調査するため、Gemma 3、Llama 3、Qwen 3の各モデルファミリーにおいてベースモデルとInstructモデルの出力統計を比較した実験記事。結果、Gemma 3はダッシュやマークダウン見出しを大幅に増幅させる一方、Llama 3は逆にこれらを抑制する傾向があり、「LLMはダッシュを多用する」という通説が普遍的でないことを明らかにした。これはRLHFにおける報酬モデルの設計思想(構造化された回答を好むか、自然な散文を好むか)が反映された『Reward Hacking』の一種であると考察。さらに安全性訓練を除去したAbliteratedモデルの分析から、文体特性は安全性フィルタリングとは別の学習層で形成されている可能性を指摘している。