概要
https://forest.watch.impress.co.jp/docs/serial/aistream/2067196.html
詳細内容
## 新画像生成AI「FLUX.2」が登場! オープンモデルで4メガピクセルの“超”高解像度生成を試す
https://forest.watch.impress.co.jp/docs/serial/aistream/2067196.html
Black Forest Labsが新たなオープンモデル画像生成AI「FLUX.2」をリリースし、4メガピクセルでの超高解像度生成、マルチリファレンス対応、テキストレンダリング強化など、その画期的な機能と実用性を解説します。
**Content Type**: Tools
**Language**: ja
**Scores**: Signal:4/5 | Depth:4/5 | Unique:3/5 | Practical:4/5 | Anti-Hype:4/5
**Main Journal**: 76/100 | **Annex Potential**: 73/100 | **Overall**: 76/100
**Topics**: [[画像生成AI, オープンモデル, 高解像度画像生成, ComfyUI, マルチリファレンス]]
Black Forest Labs (BFL)は、Googleの「Nano Banana Pro」が業界に大きな衝撃を与える中で、新たな画像生成AI「FLUX.2」を発表しました。このモデルは、特に4メガピクセル(約2,048×2,048ピクセル)までの超高解像度での画像編集と詳細の保持を可能にする点が画期的です。
著者は、自身の環境と「ComfyUI」、Google ColabのA100 GPUを用いてオープンウェイト版「FLUX.2 [dev]」を実際に動かし、その機能を検証しました。記事では、マルチリファレンス対応(最大10枚の参照画像でキャラクターやスタイルの整合性を維持)、複雑なタイポグラフィやUIモックアップも実用レベルで生成可能なテキストレンダリングの強化、そして多段階の指示にも忠実に従うプロンプト追従性の向上を、主な機能強化として挙げています。
「FLUX.2」の高性能の背景には、Mistral-3 24B視覚言語モデル(VLM)とRectified Flow Transformerを結合させた独自のアーキテクチャがあります。このVLMが現実世界の知識と文脈理解をもたらし、Transformerが空間的な関係性や構成の論理を捉えることで、圧倒的な描写力を実現していると著者は説明しています。特に、テキストエンコーダーに「Mistral 3 Small」のような高性能LLMが採用されているため、多層的で複雑なプロンプトの意図を正確に理解できると指摘されており、「ポストカードに風景を描き、さらに特定の筆記体文字を入れる」といった指示も見事に再現されました。
ローカル環境での生成時間はA100 GPUで約34秒と、高速モデルに比べると「重たい」部類に入るものの、これは320億パラメーターもの大規模モデルが高精細な画像を出力する「パワー」の証と評価されています。特に「マルチリファレンス機能」は、LoRAなしでキャラクター固定や画風統一を可能にし、漫画制作やゲームアセット作成のワークフローを劇的に変える可能性を秘めていると著者は強調します。
提供されるモデルは商用APIの「FLUX.2 [pro]」や開発者向けの「FLUX.2 [flex]」に加え、一般ユーザーも利用可能なオープンウェイト版「FLUX.2 [dev]」があり、NVIDIAの最適化によりコンシューマー向けGPUでも動作すると報告されています。ただし、著者の実験では4,096×4,096ピクセルでの生成は失敗に終わり、推奨解像度を守ることの重要性も示唆されました。「FLUX.2」の登場は、高精細な画像生成がオープンモデルでローカルに実現できる画期的な一歩であり、プロフェッショナルな画像制作の現場に大きな影響を与えることでしょう。