Phi-4-reasoning-vision：マルチモーダル推論モデルのトレーニングにおける教訓と成果

概要

Microsoft Researchが、150億パラメータで数学・科学推論やGUI操作に優れた軽量マルチモーダルモデル「Phi-4-reasoning-vision」を発表し、効率的な学習手法と推論/非推論の混合制御について公開しました。

詳細内容

Microsoftが、高い推論能力と効率性を両立した150億パラメータのオープンウェイトモデル「Phi-4-reasoning-vision-15B」をリリースしました。本モデルは、従来のモデルと比較して大幅に少ない学習データ（2000億トークン）を用いながら、数学、科学、およびコンピュータのユーザーインターフェース（GUI）の理解において優れた性能を発揮します。技術的なハイライトは以下の通りです： - **アーキテクチャ**: SigLIP-2 Naflexエンコーダを用いたミッドフュージョン構成を採用し、動的解像度による高解像度画像処理を最適化。 - **ハイブリッド学習**: 推論が必要なタスクには思考プロセス（Chain-of-Thought）を、知覚タスクには直接回答を行う「推論/非推論の混合モード」を導入し、遅延と精度のバランスを制御。 - **データ戦略**: オープンソースデータの徹底的なフィルタリングに加え、高品質な合成データとドメイン特化データを活用。 - **パフォーマンス**: 10倍以上の計算資源を投じた他社モデルに匹敵する精度を、はるかに低い推論コストで実現。計算効率と精度のトレードオフにおけるパレート限界を押し広げました。本モデルはHugging FaceやGitHubで公開されており、リソース制約のある環境での高度な視覚推論や、自律的なコンピュータ操作エージェントの開発への応用が期待されます。

元記事を読む他のサマリーを見る