掲載済み (2025-11-29号)
#119 799文字 • 4分

## 3つのケーススタディからVLMのファインチューニングの限界を探る

原題: Investigating fine-tuning limitations for VLMs with three case studies

英語

掲載情報

概要

https://iblog.ridge-i.com/entry/2025/11/26/184501

詳細内容

## 3つのケーススタディからVLMのファインチューニングの限界を探る https://iblog.ridge-i.com/entry/2025/11/26/184501 **Original Title**: Investigating fine-tuning limitations for VLMs with three case studies Ridge-iは、Vision Language Model(VLM)のファインチューニングが常に性能向上をもたらすわけではないことを、データ品質、タスクの性質、評価指標といった課題に着目した3つの内部ケーススタディを通じて実証しました。 **Content Type**: Research & Analysis **Language**: en **Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:5/5 **Main Journal**: 83/100 | **Annex Potential**: 84/100 | **Overall**: 84/100 **Topics**: [[VLM, ファインチューニング, LoRA, データ品質, 壊滅的忘却]] リッジ・アイのAurélie氏による本記事は、Vision Language Model(VLM)のファインチューニングが特定のアプリケーションへのモデル適応に有望と見なされがちであるものの、高コストと大量のデータ要件を考慮すると、その有効性を慎重に評価する必要があることを指摘しています。著者は、フルスーパーバイズドファインチューニング(SFT)とLow-Rank Adaptation(LoRA)という二つの手法を用いてInternVL2.0モデルに対する内部実験を行い、ファインチューニングが性能向上に失敗した具体的なケースとその理由を詳述しています。 VLMのファインチューニングでは、一般的に視覚エンコーダーを凍結し、プロジェクターと言語モデルを更新するアプローチが推奨されます。本実験でもこの方針が取られましたが、以下の3つのケースで性能向上が見られませんでした。 1. **DocVQAデータセット(文書画像からの情報抽出)**: ファインチューニングを行っても性能はほとんど変化しませんでした。著者は、汎用的なタスクであるため事前学習済みモデルの性能が既に高く、さらに性能ボトルネックが言語理解よりも視覚的な内容抽出にある場合、言語コンポーネントのみを更新するファインチューニングでは改善が見られない可能性を挙げています。 2. **AI2Dデータセット(図解質問応答)**: ファインチューニング後にモデルの指示に従う能力が著しく低下し、テスト精度が0に落ち込む結果となりました。主な原因は、学習データとテストデータの間で回答フォーマットが異なっていたことです。壊滅的忘却を防ぐため学習率を下げたり、汎用データを混ぜたりする対策も試みられましたが、事前学習済みモデルの性能を超えることはできませんでした。このケースは、ファインチューニング時に学習データの品質とフォーマットの一致が極めて重要であり、壊滅的忘却の対策は学習プロセスを複雑化させることを示唆しています。 3. **COCO Captionsデータセット(画像キャプション生成)**: BLEUスコアなどの自動評価指標上ではファインチューニング後に大幅な改善が見られましたが、人間の評価に基づく詳細な調査では、クラウドソーシングによる参照キャプションの品質が低かった(誤字脱字、文法ミス、詳細不足)ため、ファインチューニングされたモデルは単にこの低品質な学習データの分布に適応しただけであり、実際の性能は劣化していることが判明しました。BLEUのようなコーパスベースの指標が個々の文の意味や文法を適切に評価できないという問題も浮き彫りになりました。 また、著者は計算資源の制約下での選択肢として、小規模モデルのSFTと大規模モデルのLoRAを比較。80GBのGPUでは、フルSFTは2Bモデルまでしか対応できないのに対し、LoRAは8Bモデルまで適用可能であり、少ないリソースでより大きな事前学習済みモデルを効率的に活用できる可能性を示しました。 結論として、著者はVLMのファインチューニングは複雑でリソース集約的であり、常に性能向上をもたらすわけではないと強調します。外部知識の学習には不向きであること、視覚エンコーダーがボトルネックの場合や、汎用タスクでは事前学習済みモデルで十分なこと、そして特に学習データの品質やフォーマットの不一致、壊滅的忘却が大きな課題となるとまとめています。ファインチューニングを検討する際には、多大なコストと性能劣化のリスクを考慮し、プロンプトチューニングやRAG(Retrieval-Augmented Generation)などの代替アプローチの可能性を慎重に評価するとともに、利用可能なデータの量と品質が基本的な要件を満たしているかを確認することを強く推奨しています。