Google は、Gemini 3 ファミリーのモデルをベースにした最新の画像生成および編集モデル「Nano Banana 2」と「Nano Banana Pro」のプロンプトガイドを公開しました。
このガイドでは、深い推論機能を活用して、ユーザーが思い描く精度の高い画像を生成するための手法や、モデルの詳細な仕様が解説されています。
以下はガイドから、主要なコツについてピックアップして紹介していきます。
Nano Banana 2 と Nano Banana Pro の技術仕様
Nano Banana 2 は 2026 年 2 月 27 日に発表され、ウェブ検索からのリアルタイム情報や画像を活用して、より正確なビジュアルを生成できる点が特徴です。
また、テキストのレンダリングや多言語翻訳、2K / 4K へのアップスケーリングといったプロレベルの機能を備えており、16:9 や 9:16 など多様なアスペクト比にもネイティブで対応しています。
Nano Banana 2 および Nano Banana Pro の両モデルは API および Vertex AI を通じて利用可能で、高度な画像処理をサポートする強力なスペックを備えています。
- コンテキストウィンドウ:
- Gemini 3.1 Flash Image をベースとする Nano Banana 2 は最大 131,072 入力トークン、Gemini 3 Pro Image ベースの Nano Banana Pro は最大 65,536 入力トークンをサポートします。出力はどちらも最大 32,768 トークンです。これだけ広大なコンテキストウィンドウがあれば、大量の参照画像や複雑なプロンプトを投げ込んでも、文脈を見失わずに処理してくれると期待できます。
- 解像度とアスペクト比:
- 1K、2K、4K の生成に対応し、Nano Banana 2 では新たに 512px の低解像度生成も追加されました。アスペクト比も 1:1 から 21:9 まで幅広く対応し、Nano Banana 2 では 1:4 や 8:1 といった極端な比率も利用可能です。
- 入力と出力:
- 最大 14 枚の参照画像(PNG、JPEG、WEBP など)を単一のプロンプトに混在させることができます。テキストや PDF ファイルの読み込みも可能で、API や Cloud Storage 経由なら最大 50MB までのファイルを扱えます。
- 知識ベースと安全性:知識のカットオフは 2025 年 1 月 ですが、ウェブ検索からのリアルタイム情報で補完されます。すべての生成画像には C2PA のコンテンツクレデンシャルと SynthID ウォーターマークが付与され、安全性が担保されています。
効果的なプロンプト作成のベストプラクティス
Google は、Nano Banana モデルから最適な出力を得るための 5 つのプロンプティングフレームワークを提示しています。
画像生成(テキストとマルチモーダル)
ゼロから画像を生成する場合、被写体、アクション、場所、構図、スタイルを具体的に描写することが重要です。
例えば、「茶色のドレスを着たモデル」だけでなく、カメラのアングルやライティング、フィルムの質感まで指定することで、意図した通りの画像を生成しやすくなります。
また、最大 14 枚の画像を読み込める仕様を活かし、参照画像とテキストを組み合わせることも可能です。布のサンプルの質感とスケッチの構造を組み合わせて、新しい背景に配置するといった高度な合成は、プロダクトデザインの現場などでの活用も想定されます。
会話型の画像編集
すでに生成した画像、あるいは手持ちの画像を編集する際は、変更したい部分と維持したい部分を明確に伝えます。
テキストでマスク範囲を指定するセマンティックマスキング機能を使えば、「写真から人物だけを削除する」といったピンポイントな編集が可能です。新しい要素の追加や、写真をゴッホ風の絵画にするといったスタイル転送にも対応しています。
ウェブ検索に基づくリアルタイム生成
Nano Banana モデルの強みとして、ウェブ検索と連動した画像生成が挙げられます。
たとえば「サンフランシスコの現在の天気と日付を検索し、その天候を反映したミニチュア都市をスマートフォンの UI 内に描画する」といったプロンプトが可能です。
この機能は近日中に Vertex AI でも展開される予定となっており、常に最新の情報に基づいたビジュアルを作成できるのは、マーケティングやニュース用途での活用が想定されます。
テキストレンダリングとローカライズ
画像内に文字を正確に描画する機能も強化され、描画したい文字を引用符で囲み、フォントスタイル(例:太字のサンセリフ体)を指定することで、ポスターや製品モックアップを簡単に作成できます。
また、10 以上の言語に対応しているため、英語で指示を出して韓国語やアラビア語で出力させるといったローカライズもスムーズに行えます。
Nano Banana Pro でもテキスト描画の精度は向上していましたが、Nano Banana 2 ではフォントの細かいニュアンスまで制御しやすくなります。
クリエイティブディレクター視点のプロンプト
より高品質な結果を得るためには、キーワードの羅列ではなく、シーン全体を演出するプロンプトが求められます。
- ライティング:ソフトボックスを使ったスタジオ照明や、コントラストの強いキアロスクーロ照明などを指定します。
- カメラとレンズ:GoPro のような歪みのあるアクションカメラ風や、被写界深度の浅いマクロレンズなど、機材の特性をプロンプトに盛り込みます。
- カラーグレーディング:1980 年代のカラーフィルム風や、映画のようなティールトーンなどを定義します。
- 素材とテクスチャ:単なる「鎧」ではなく「銀箔の模様が彫られたエルフのプレートアーマー」のように、物理的な質感を詳細に言語化します。
Veo や Lyria との連携による拡張性
Nano Banana 2 や Nano Banana Pro は、Google の他の生成 AI モデルとシームレスに連携するように設計されています。
Gemini 3 を使ってプロンプトのアイデアを練り、Nano Banana で動画のキーフレームとなる画像を生成し、それを動画生成モデル Veo に渡してアニメーション化するといったワークフローが構築できます。
さらに、音楽生成モデルの Lyria を組み合わせれば、視覚から聴覚まで一貫した AI コンテンツの制作が可能です。
まとめ
今回公開された Nano Banana 2 および Nano Banana Pro のプロンプトガイドは、実務で使える実践的なテクニックが紹介されています。
最大 13万トークン超えのコンテキストウィンドウやリアルタイム検索との統合など、最新の技術仕様を最大限に引き出すためには、プロンプトの書き方自体もアップデートしていく必要があります。
より詳しい説明とプロンプトについては、Google Cloud Blog で公開されている「The ultimate Nano Banana prompting guide」をご覧ください。


