概要
https://developers.cyberagent.co.jp/blog/archives/61239/
詳細内容
## LLMはバンディット問題を解けるか
https://developers.cyberagent.co.jp/blog/archives/61239/
検証を通じて、LLMは履歴情報の解釈は可能だが、バンディット問題特有の「探索と活用のトレードオフ」を戦略的に扱う能力が不足していることを明らかにする。
**Content Type**: 🔬 Research & Analysis
**Language**: ja
**Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:5/5
**Main Journal**: 84/100 | **Annex Potential**: 85/100 | **Overall**: 84/100
**Topics**: [[LLM, バンディット問題, 強化学習, Gemini, 意思決定]]
サイバーエージェントのAI Lab Reinforcement Learning teamによる、大規模言語モデル(LLM)の意思決定能力に関する検証レポートである。本記事は、未知の報酬分布から最適な選択肢を模索する「バンディット問題(Multi-Armed Bandit)」を題材に、LLMが「探索(Exploration)」と「活用(Exploitation)」のトレードオフを適切に処理できるかを実験的に示している。
実験では、2腕ベルヌーイ・バンディット問題を対象とし、理論的なベースラインである「Thompson Sampling(TS)」と、Gemini-2.5-flash-liteを用いたLLMによる選択を比較した。LLMには過去の試行履歴(ラウンド、選択した腕、報酬)をテキスト形式で与え、次の選択を促すプロンプトを入力している。
検証の結果、TSは累積後悔(最適な選択を続けた場合との差)を対数オーダー(log T)に抑え、時間の経過とともに最適な腕へ収束した。対して、LLMの累積後悔は試行回数に比例して線形に増加し、最適な選択肢への収束が見られなかった。著者はこの失敗の要因として、LLMが「ランダム性を戦略として扱うこと」の難しさを指摘している。TSのようなアルゴリズムは、不確実性を確率分布として明示的に管理し、サンプリングによって探索を実現するが、LLMは履歴を解釈できても内在的に不確実性を戦略化する仕組みを持たないため、初期の偶発的な報酬に過剰に反応して特定の選択肢に固着(早期の張り付き)してしまう傾向がある。
エンジニアにとっての重要な示唆は、LLMをエージェントの意思決定器として直接利用する際の限界が浮き彫りになった点だ。現状のLLMは、コンテキストに基づいた推論には優れるものの、不確実性を伴う動的な環境下での最適化においては、古典的な強化学習アルゴリズムに及ばない。実務上の推論コストやレイテンシ、コンテキスト長の制限も含めると、バンディット問題のような逐次的意思決定タスクにLLMをそのまま投入するのは、安定性と理論的性質の両面で課題が多いと著者は結論付けている。LLMと専用アルゴリズムの役割分担、あるいはLLMに統計的な不確実性を扱わせるための外部メカニズムの必要性を再認識させる内容となっている。