掲載済み (2025-12-20号)
#169 466文字 • 3分

## Qwen-Image-Layered: レイヤー分解による固有の編集可能性の実現に向けて

原題: Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

英語

掲載情報

概要

https://huggingface.co/papers/2512.15603

詳細内容

## Qwen-Image-Layered: レイヤー分解による固有の編集可能性の実現に向けて https://huggingface.co/papers/2512.15603 **Original Title**: Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition Qwen-Image-Layeredは、画像をセマンティックに分離されたRGBAレイヤーに分解することで、一貫性のある画像編集を可能にする新しい拡散モデルを提案します。 **Content Type**: Research & Analysis **Language**: en **Scores**: Signal:5/5 | Depth:5/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:4/5 **Main Journal**: 94/100 | **Annex Potential**: 94/100 | **Overall**: 92/100 **Topics**: [[拡散モデル, 画像編集, レイヤー分解, コンピュータビジョン, 生成AI]] 最新のビジュアル生成モデルは、ラスター画像が単一のキャンバスに全ての視覚コンテンツを融合させる性質上、画像編集時に一貫性を保つことに課題を抱えています。これに対し、プロフェッショナルなデザインツールではレイヤー表現を用いることで、他のコンテンツに影響を与えずに個別の編集を可能にし、一貫性を維持しています。 この研究論文で提案される「Qwen-Image-Layered」は、この課題を解決するため、1枚のRGB画像を複数のセマンティックに分離されたRGBAレイヤーに分解するエンドツーエンドの拡散モデルです。これにより、各RGBAレイヤーが独立して操作できる「固有の編集可能性」を実現し、一貫性のある画像編集を可能にします。 この目標を達成するため、Qwen-Image-Layeredは以下の主要な3つのコンポーネントを導入しています。 1. **RGBA-VAE**: RGB画像とRGBA画像の潜在表現を統一するためのモデル。 2. **VLD-MMDiT (Variable Layers Decomposition MMDiT)**: 可変数の画像レイヤーを分解できるアーキテクチャ。 3. **Multi-stage Training**: 事前学習済みの画像生成モデルを多層画像分解器に適応させるための複数段階学習戦略。 さらに、高品質な多層学習用画像が不足しているという課題に対し、Photoshopドキュメント(PSD)から多層画像を抽出し、アノテーションを付与するパイプラインを構築しました。実験結果は、本手法が既存のアプローチを分解品質において大幅に上回り、一貫した画像編集の新しいパラダイムを確立することを示しています。 この技術は、AIを活用した画像生成や編集機能をWebアプリケーションに統合する開発者にとって非常に重要です。画像をレイヤー単位でセマンティックに制御できることは、より複雑で精度の高い画像編集ワークフローを実現し、ユーザー体験を大幅に向上させる可能性を秘めています。例えば、生成された画像の特定の部分だけを修正したり、背景を容易に変更したりといった応用が考えられます。