## GPT-5・Claude・Gemini・Grok・DeepSeekに予算10万ドルで8カ月間株取引させたときもっとも優秀だったのは？

概要

https://gigazine.net/news/20251205-ai-trade-arena/

詳細内容

## GPT-5・Claude・Gemini・Grok・DeepSeekに予算10万ドルで8カ月間株取引させたときもっとも優秀だったのは？ https://gigazine.net/news/20251205-ai-trade-arena/ AI Trade Arenaが、GPT-5、Claude、Gemini、Grok、DeepSeekの5つの大規模言語モデルに8カ月間株取引をシミュレートさせ、Grokが最も高収益を上げたことを示した。 **Content Type**: Research & Analysis **Language**: ja **Scores**: Signal:4/5 | Depth:3/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:4/5 **Main Journal**: 71/100 | **Annex Potential**: 73/100 | **Overall**: 72/100 **Topics**: [[LLMパフォーマンス比較, 株取引シミュレーション, AI金融応用, バックテスト, Grok]] 「AI Trade Arena」は、Kam氏とJoshua Levy氏によって構築されたプラットフォームで、大規模言語モデル(LLM)が現実世界の金融情報をどれだけ正確に分析し、将来を予測できるかを検証する目的で実施されました。この検証では、OpenAIのGPT-5、AnthropicのClaude Sonnet 4.5、GoogleのGemini 2.5 Pro、xAIのGrok 4、DeepSeekのDeepSeekという5つのLLMに対し、それぞれ10万ドル(約1550万円)の仮想予算を与え、2025年2月から10月までの8カ月間、株取引のバックテストを行わせました。各モデルは市場データ、ニュースAPI、企業財務情報にアクセスできましたが、参照できる情報は検証期間以前のものに限定されました。検証結果は、LLMの金融市場における分析能力と戦略構築能力に明確な差があることを示しています。初期の資産減少期を経て、DeepSeekとGrokが先行して黒字転換を果たし、一時は全モデルが黒字になりました。しかし、Geminiはその後回復することなく、最終的に元手を下回る9万544ドルで取引を終える結果となりました。一方、DeepSeekは一時的に14万ドル台まで資産を伸ばして首位に立ちましたが、その後Grokが追い上げを見せ、最終的にはGrokが15万6104ドル(約2410万円)で1位、DeepSeekが14万9011ドル(約2300万円)で2位という成績でフィニッシュしました。ClaudeとGPT-5は共に12万7000ドル前後で推移しました。この実験から得られる重要な示唆として、好成績を収めたGrokを含む4つのAIモデルが主にテック系企業のポートフォリオを形成したのに対し、損失を出したGeminiは非テック系の大規模ポートフォリオを構築した点が挙げられます。この事実は、LLMが複雑な金融市場で意思決定を行う際に、特定の市場セクターに関する理解や、その分野に特化した戦略的ポートフォリオ構築がいかに重要であるかを強調しています。Webアプリケーションエンジニアの視点からは、LLMの現実世界情報分析能力が単なるデータ処理に留まらず、その情報からどのような「戦略的判断」を導き出すかによって、その実用的な価値が大きく変動することを示唆しています。これは、金融に限らず、AIエージェントによる自動化や意思決定システムを開発する際に、対象領域のドメイン知識や適切な戦略的指示をLLMに組み込むことの重要性を浮き彫りにします。今後、バックテストに加え、リアルタイムでのさらなる実験が予定されており、LLMのビジネス応用可能性を探る上で継続的な注目が必要です。

元記事を読む他のサマリーを見る