掲載済み (2025-11-15号)
#107 720文字 • 4分

## 「Nano Banana」は極めて繊細なAI画像生成のためにプロンプトエンジニアリング可能

原題: Nano Banana can be prompt engineered for extremely nuanced AI image generation

英語

掲載情報

概要

https://minimaxir.com/2025/11/nano-banana-prompts/

詳細内容

## 「Nano Banana」は極めて繊細なAI画像生成のためにプロンプトエンジニアリング可能 https://minimaxir.com/2025/11/nano-banana-prompts/ **Original Title**: Nano Banana can be prompt engineered for extremely nuanced AI image generation Googleの新しい画像生成モデル「Nano Banana」は、従来のモデルを凌駕する強力なプロンプト順守能力を持ち、開発者がHTMLやJSONなどの複雑な指示を用いて非常にニュアンスの多い画像を生成できる可能性を提示します。 **Content Type**: ⚙️ Tools **Language**: en **Scores**: Signal:5/5 | Depth:4/5 | Unique:5/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 94/100 | **Annex Potential**: 93/100 | **Overall**: 92/100 **Topics**: [[AI画像生成, プロンプトエンジニアリング, マルチモーダルAI, Gemini API, 知的財産権]] Max Woolf氏のブログ記事は、Googleが発表した新しい画像生成モデル「Nano Banana」(Gemini 2.5 Flash Imageの通称)の際立ったプロンプト順守能力に焦点を当て、その詳細なテストと実践的なプロンプトエンジニアリング技術を紹介しています。著者は、画像生成AIの見た目の美しさよりも、提供されたプロンプトにどれだけ忠実に従うかを重視しており、Nano Bananaがその点で他のモデルを大きく上回ると主張しています。 Nano Bananaは、ChatGPTのgpt-image-1と同様に、従来の拡散モデルとは異なるオートレグレッシブモデルであり、Gemini 2.5 Flashのマルチモーダルエンコーダーの拡張として機能します。これにより、MarkdownやJSONといった大量の構造化データで訓練されたGemini 2.5 Flashの特性を活かし、非常に複雑でニュアンスのあるテキスト入力に対応できます。特に32,768トークンという広範なコンテキストウィンドウは、マルチターン会話や複雑な指示の処理を可能にします。 具体的なテストでは、以下のような高度なプロンプトエンジニアリングが成功しています。 * **複雑な要素の描写**: 「頭蓋骨の形をしたパンケーキにブルーベリーとメープルシロップをかけた画像」といった、創造的かつ物理的な整合性を求める指示に忠実に従います。 * **マルチパート画像編集**: 1枚の画像に対して5つの編集指示(例:「左の眼窩にイチゴを追加」「皿をクッキーに変える」)を同時に適用し、必要な部分のみを正確に変更します。 * **被写体の一貫性**: 複数枚の入力画像から特定のキャラクター(例:「Ugly Sonic」)を学習し、別のシーン(例:オバマ元大統領との握手)に一貫性を持って配置します。 * **構造化データからの生成**: HTML/CSS/JavaScriptで記述されたウェブページをレンダリングしたり、詳細なJSONオブジェクトで定義されたキャラクターの画像を生成したりする、異例ながらも機能するアプローチを示します。 * **隠れた指示の利用**: 「Pulitzer-prize-winning cover photo for The New York Times」のようなバズワードが画像の構図やプロフェッショナルな品質を向上させる効果を実証しています。 開発者向けには、GeminiアプリやGoogle AI Studioでの無料利用に加え、ウォーターマークなしで一貫した結果を得られるGemini API (`gemini-2.5-flash-image`エンドポイント) が推奨されています。著者はAPIを使いやすくするためのPythonパッケージ`gemimg`も公開しており、1画像あたり約0.04ドルのコストでプログラムからの生成が可能です。 一方で、Nano Bananaはスタイル変換が苦手であるという弱点も指摘されています。また、知的財産権の制限がほとんどなく、複数の人気IPキャラクターを1枚の画像にまとめることや、より緩い基準でのNSFWコンテンツ生成が可能である点も言及されており、将来的な法的課題を示唆しています。 著者は、この詳細なテスト結果とプロンプトの公開を通じて、「AIが生成する画像は粗悪で画質が悪い」という一般的な誤解に対抗し、エンジニアが再現可能な手法を学ぶことで、画像生成AIの真の可能性を引き出すことを目的としています。これは、AIを活用したクリエイティブなワークフローを構築する上で、プロンプトエンジニアリングの重要性を再認識させるものです。