概要
https://speakerdeck.com/iwiwi/zhan-eruaiezientonozuo-rifang
詳細内容
## 戦えるAIエージェントの作り方
https://speakerdeck.com/iwiwi/zhan-eruaiezientonozuo-rifang
秋葉拓哉氏が、人間の専門家に匹敵する実用的なAIエージェントを構築するための決定打として、推論時スケーリングとドメイン知識の活用という二つの核となるアプローチを提示しています。
**Content Type**: Tutorial & Guide
**Language**: ja
**Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:4/5
**Main Journal**: 83/100 | **Annex Potential**: 82/100 | **Overall**: 84/100
**Topics**: [[AIエージェント, LLM, 推論時スケーリング, ドメイン知識活用, 生成AI]]
株式会社Sakana AIのリサーチサイエンティストである秋葉拓哉氏は、発表「戦えるAIエージェントの作り方」で、単にLLMにツールを連携させるだけでは実用的なエージェントは生まれないという課題を提示し、人間の専門家と肩を並べる強力なAIエージェントを構築するための決定打として、「推論時スケーリング」と「ドメイン知識の活用」の二つの核となるアプローチを解説しました。
まず、専門家レベルのAIエージェントとして、査読付き論文執筆エージェント「The AI Scientist V2」や最適化アルゴリズム自動設計エージェント「ALE-Agent」など、Sakana AIの研究事例を紹介しました。
「推論時スケーリング」については、学習時ではなく推論時により多くの計算資源を投入する手法と定義し、主に以下の3つのアプローチを説明しています。
1. **LLMによる長文CoT(Chain-of-Thought)の実行**: OpenAI o1やDeepSeek R1が例。
2. **LLMと協調して丁寧な解答を構築する**: Process Reward Modelの利用など。
3. **LLMを大量に呼び出し、複数の解答から試行錯誤する**:
* **Repeated Sampling(go wide)**: 同じプロンプトでLLMを複数回呼び出し、最適な解答を選択する単純ながら強力な手法です。SWE-Bench Liteで250回呼び出しにより正解率が16%から56%に向上した事例が示され、AlphaCodeも過去に数百万回の呼び出しを試みていました。
* **AB-MCTS**: Sakana AIが提案するこのアルゴリズムは、Repeated Samplingの「多様性活用」とSequential Refinement(go deep)の「フィードバック活用」を適応的に組み合わせることで、単体LLMを上回る高性能を実現します。複数LLMの組み合わせも可能で、実案件でも試用中とのことです。
* **ShinkaEvolve**: 国際プログラミングコンテストICFP-PC 2025の優勝チームに貢献した進化型アルゴリズムです。
次に、「ドメイン知識の活用」の重要性を強調しました。これは従来の機械学習における特徴量エンジニアリングと同様に不可欠ですが、LLM時代にはその方法が変化しています。
1. **プロンプト**: 専門的な知識や方法論をプロンプトに含めることで、ニッチなタスクで効果を発揮します。
2. **ワークフロー**: 専門家のタスク遂行プロセスをエージェントのコードとして表現します。「The AI Scientist」は科学者の研究方法論を模倣しています。
3. **ルーブリック(評価基準)**: LLM-as-a-Judgeに頼る実務において、ドメイン知識を活用したルーブリック作成は、推論時スケーリングの効果を安定させ、最大化するために不可欠です。PaperBenchでは、少数の論文に対し膨大な専門家作成ルーブリックが用いられています。
秋葉氏は、これらのアプローチを組み合わせることで、人間レベルの専門知識を持つ強力なAIエージェントの実現が可能になると結びました。