掲載済み (2026-03-14号)
#015 242文字 • 2分

Phi-4-reasoning-vision:マルチモーダル推論モデルのトレーニングにおける教訓と成果

原題: Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model

日本語

掲載情報

2026年3月14日土曜日号 メインジャーナル掲載

概要

Microsoft Researchが、150億パラメータで数学・科学推論やGUI操作に優れた軽量マルチモーダルモデル「Phi-4-reasoning-vision」を発表し、効率的な学習手法と推論/非推論の混合制御について公開しました。

詳細内容

Microsoftが、高い推論能力と効率性を両立した150億パラメータのオープンウェイトモデル「Phi-4-reasoning-vision-15B」をリリースしました。本モデルは、従来のモデルと比較して大幅に少ない学習データ(2000億トークン)を用いながら、数学、科学、およびコンピュータのユーザーインターフェース(GUI)の理解において優れた性能を発揮します。 技術的なハイライトは以下の通りです: - **アーキテクチャ**: SigLIP-2 Naflexエンコーダを用いたミッドフュージョン構成を採用し、動的解像度による高解像度画像処理を最適化。 - **ハイブリッド学習**: 推論が必要なタスクには思考プロセス(Chain-of-Thought)を、知覚タスクには直接回答を行う「推論/非推論の混合モード」を導入し、遅延と精度のバランスを制御。 - **データ戦略**: オープンソースデータの徹底的なフィルタリングに加え、高品質な合成データとドメイン特化データを活用。 - **パフォーマンス**: 10倍以上の計算資源を投じた他社モデルに匹敵する精度を、はるかに低い推論コストで実現。計算効率と精度のトレードオフにおけるパレート限界を押し広げました。 本モデルはHugging FaceやGitHubで公開されており、リソース制約のある環境での高度な視覚推論や、自律的なコンピュータ操作エージェントの開発への応用が期待されます。