概要
https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/
詳細内容
## 「ワールドモデル」に賭けるフェイフェイ・リー、ヤン・ルカン、DeepMind:その賭け方の違い
https://entropytown.com/articles/2025-11-13-world-model-lecun-feifei-li/
**Original Title**: Why Fei-Fei Li, Yann LeCun and DeepMind Are All Betting on “World Models” — and How Their Bets Differ
AI業界の主要プレイヤーが「ワールドモデル」という共通の言葉を使いながら、それぞれ異なる技術的アプローチと目標を持つプロダクトを開発している現状を解き明かす。
**Content Type**: AI Hype
**Language**: en
**Scores**: Signal:4/5 | Depth:4/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:5/5
**Main Journal**: 91/100 | **Annex Potential**: 93/100 | **Overall**: 88/100
**Topics**: [[ワールドモデル, 生成AI, 3D技術, 空間知能, エージェントAI]]
この記事は、AI分野で注目されるフェイフェイ・リー率いるWorld Labs、ヤン・ルカン、そしてDeepMindが、いずれも「ワールドモデル」という概念に注力しているものの、その具体的な技術的アプローチと目指すものが大きく異なっている現状を分析しています。著者は、「ワールドモデル」という用語が現在のAI業界で多義的に使われている点を指摘し、ウェブアプリケーションエンジニアがその実態を区別することの重要性を強調しています。
「ワールドモデル」の概念は、もともと1943年にスコットランドの心理学者ケネス・クレイグが提唱した、脳が外部世界の「小規模なモデル」を内部に構築し、それを用いて予測や推論、仮説検証を行うという認知科学の考え方に由来します。しかし、今日AIの文脈でこの言葉が使われる際、その意味は曖昧になり、各社が異なる方向に進んでいます。
1. **World LabsのMarble**: Marbleは、テキストプロンプトや画像、動画から編集可能な3Dシーンを生成する「人間のための3Dコンテンツパイプライン」です。Gaussian Splatting(ガウス・スプラッティング)技術を用いて、ウェブやVRで体験できるリアルな3D環境を出力します。これは主にゲームエンジンやVRアプリケーションで使用される3Dアセットの生成に焦点を当てており、著者は、フェイフェイ・リーの提唱する「身体を持つエージェント」や「常識的な物理学」といった広範なビジョンと、現在のMarbleの実装(洗練された3DGSビューア)との間に乖離があると指摘します。
2. **ヤン・ルカンのワールドモデル**: ルカンが提唱するワールドモデルは、制御理論と認知科学に基づいた「エージェントの内部的な予測脳」です。これは感覚データを入力として潜在状態を学習し、エージェントの行動や環境の変化がその潜在状態をどのように進化させるかを予測します。JEPA(Joint Embedding Predictive Architectures)のようなモデルがその代表例で、視覚的に美しい画像を生成するのではなく、エージェントが数ステップ先を予測し、行動計画を立てるための内部機構です。これは、ロボットやAIエージェントが自律的に思考し、行動するためのバックエンドシステムを志向しています。
3. **DeepMindのGenie 3とSIMA 2**: DeepMindは、この中間的なアプローチをとっています。Genie 3は、テキストプロンプトからインタラクティブなビデオのような環境を生成し、エージェントがその中で行動し、結果を観察して学習できる「エージェントが訓練するためのシミュレーターとしてのワールド」を提供します。SIMA 2は、これらのシミュレートされた世界でナビゲーション、操作、指示の実行といった汎用的なスキルを習得し、将来的に物理的なロボットへ転送することを目指す汎用エージェントです。
著者は、これらの違いを理解することが、AIの未来を正しく評価する上で極めて重要であると述べています。「ワールドモデル」という言葉を見た際には、それが「人間が見る静的アセット」なのか、「エージェントが訓練するリアルタイムシミュレーター」なのか、あるいは「内部で推論を駆動する潜在状態」なのかを問うべきです。また、システムが過去の行動や環境変化を記憶し、将来の予測に利用するかどうかも重要な区別点となります。
結論として、これらのアプローチはすべて、「次トークン予測を超えて、機械に世界について構造化された思考方法を与える」という共通の大きな野心を共有しています。しかし、その出発点(レンダリング、物理シミュレーター、内部コード)は異なると著者は指摘します。現在のAI研究におけるLLMブームが、これら多様な「ワールドモデル」の研究と開発への投資を加速させている状況も示唆されています。エンジニアとしては、バズワードに惑わされず、その背後にある具体的な技術的実態と目的を深く理解することが求められます。