Nano Banana 2 提示词终极指南：从入门到精通的实战技巧

Nano Banana 2（Gemini 3.1 Flash Image）不仅仅是一款更快的 AI 绘图模型——它内置了 Gemini 3.1 Flash 的深度推理引擎，能够在生成图像前真正"理解"你的意图。要充分发挥这一能力，关键在于掌握一套科学有效的提示词框架。本文将基于 Google 官方文档和大量实测经验，为你系统梳理 Nano Banana 2 的提示词工程最佳实践。

1. 核心原则：像创意总监一样思考

在使用 Nano Banana 2 时，最重要的心态转变是：不要像搜索引擎一样输入关键词，而要像创意总监一样描述场景。

模型响应的质量直接取决于你描述的丰富程度和精确程度。每一个细节——光线的方向、人物的姿态、背景的材质——都是引导模型生成精确图像的信号。

四项基本准则：

具体化（Be Specific）：提供关于主体、光线和构图的具象细节。
正向表达（Positive Framing）：描述你想要什么，而非你不想要什么。例如用"空旷的街道"代替"没有汽车的街道"。
控制镜头语言：使用摄影和电影术语（如"低角度"、"航拍视角"）来驾驭画面构图。
迭代优化：以对话方式逐步细化图像，每一次反馈都会让结果更贴近你的设想。

2. 图文生成：从空白画布到专业大作

2.1 纯文字生成公式

当你没有提供任何参考图，从零开始创作时，建议使用以下结构：

[主体] + [动作/状态] + [场景/环境] + [构图] + [风格]

示例：

主体：一位身着一件修身棕色连衣裙、脚踩利落短靴、手持结构化手提包的时尚模特。
动作/状态：姿态自信，双腿略微交叉站立，身体微微侧转。
场景/环境：无缝深樱桃红影棚背景。
构图：中全景镜头，画面中心构图。
风格：时尚杂志风格编辑摄影，使用中画幅胶片拍摄，高颗粒感，高饱和度，电影光效。

将以上元素用自然语言串联，就得到了一条高质量的 Nano Banana 2 提示词。

2.2 多模态生成（结合参考图）

Nano Banana 2 支持在单次提示词中混入 最多 14 张参考图，这是保持风格一致性和物体一致性的关键能力。

公式：

[参考图] + [关系指令] + [新场景描述]

示例：

以附件中的餐巾纸草图作为结构框架，以附件中的面料样本作为纹理参考，将这个设计转化为一张高保真的 3D 扶手椅渲染图。将它放置在一个阳光充足、极简主义的客厅场景中。

这种模式在以下场景中尤为有效：

风格迁移：参考一张照片，让模型以特定艺术风格重新创作。
物体合成：将产品图放入特定场景中，生成营销素材。
角色一致性：上传角色设定图，确保后续所有图像中的角色外观不变。

3. 语义编辑：精准修改而不破坏整体

编辑与生成需要完全不同的思维模式。当你已经有一张基础图像时，提示词的核心变成了：明确什么需要改变，什么必须保持不变。

3.1 对话式编辑

最简单的方式是直接用自然语言描述修改意图：

"把这张照片里的男人去掉。"
"把这只猫的颜色改成橘色。"
"把背景换成黄昏的街道。"

模型会自动理解你的意图，在保留主体不变的前提下完成修改。

3.2 语义遮罩（意图感知编辑）

你可以通过自然语言定义一个"语义遮罩"，精准修改图像的特定区域而完全不影响其他部分：

提示词："将背景中的天空替换为暴风雨的乌云，但保留前景中的人物和建筑完全不变。"

这就是 Nano Banana 2 的 Intent-aware Editing 能力——无需使用传统 PS 中的套索或钢笔工具，只需用语言描述你的意图。

3.3 构图与风格迁移

引入新的参考图来改造已有图像：

添加元素：上传一张基础场景图和一张物体图，让模型将物体合成到场景中。
风格迁移：上传一张城市街道的照片，要求模型以梵高风格重新呈现。

4. 实时搜索 grounding：让图像反映真实世界

Nano Banana 2 的一大独特能力是调用 Google 搜索的实时数据和图像来增强生成内容的准确性。

工作原理

传统的 AI 绘图模型只能依靠训练数据来渲染事物，而 Nano Banana 2 可以主动搜索真实世界的视觉参考，确保生成结果的准确性。

提示词变化

不再描述一个虚构场景，而是引导模型进行搜索→分析→可视化的三步流程：

公式：

[来源/搜索请求] + [分析任务] + [视觉翻译]

示例：

"搜索当前旧金山的天气和日期数据。分析这些数据对场景的影响（例如如果下雨则渲染灰雨天气）。将这个场景以'城市杯中景'的概念呈现在一个逼真的现代智能手机 UI 界面中。"

"先搜索博物馆 Clos Lucé 的真实照片作为视觉参考，然后以明亮色彩的合成立体主义风格生成这个建筑的形象，不要包含任何文字。"

通过在提示词末尾添加 "Your plan is to first search for visual references, and generate after."，你可以显式引导模型启用搜索 grounding 功能。

5. 精准文字渲染与本地化

Nano Banana 2 在文字渲染方面的能力已经达到生产级可用水平。要获得最佳的文字效果，以下是几个经过验证的技巧：

5.1 基础文字渲染

使用引号：将你希望出现的文字用引号包裹起来。
生成一张复古风格的餐厅海报，画面中央有一块黑板，上方用白色粉笔字体写着"今日特餐"。
描述字体风格：明确指定字体类型和特征。
渲染三个层次的文字，顶部为"限时优惠"使用粗体 Impact 字体，中间为"5折"使用超大字号的霓虹风格字体，底部为"仅限本周"使用细体无衬线字。

5.2 两步文字法（Text-first Hack）

Google 官方文档推荐的最佳实践是 分两步走：

第一步：先与模型对话，让它生成文字内容的创意概念（确定文案、排版和风格方案）。
第二步：要求模型生成包含这些精确文字内容的图像。

这种"文字先行"的策略能显著提升文字渲染的准确性，因为模型在生成图像前已经对文字内容有了充分的理解和排版规划。

5.3 多语言翻译与本地化

Nano Banana 2 支持超过 10 种语言的图像内文字生成和翻译：

"将这张贺卡上的所有文字翻译成韩语和阿拉伯语，保持相同的文字风格。"

在本地化场景中，模型不仅会翻译文字内容，还会相应地调整画面元素以适应目标语言的文化背景——例如将一张野生动物保护提示牌从英文本地化为印地语版本时，背景的动植物也会被替换为印度本地的物种。

6. 创意总监模式：掌控光影、镜头与质感

要让图像从"不错"跃升到"惊艳"，你需要像专业摄影师和艺术指导一样思考。

6.1 光线设计

影棚布光："使用三点式柔光箱布光均匀照亮产品。"
戏剧光效："使用伦勃朗光效，正面偏侧硬光制造深邃阴影。"
黄金时刻："午后侧光制造长投影，营造温暖怀旧氛围。"
氛围光："暖黄色台灯光源从画面左侧打来，形成轮廓光。"

6.2 镜头与景深控制

相机型号改变视觉DNA：
"用 GoPro 拍摄以获得沉浸式广角动作感。" "使用富士相机获得自然的色彩科学。" "模拟一次性胶片机的质感，带有复古闪光和颗粒。"
镜头类型：
"浅景深（f/1.8）突出主体，背景柔化散焦。" "移轴镜头效果制造微缩模型感。" "鱼眼镜头夸张透视增强戏剧张力。"
景深与焦平面：
"深景深让前景和背景同样清晰，适合建筑摄影。" "极浅景深只让主体眼睛保持锐利，其余全部虚化。"

6.3 色彩分级与胶片质感

"模拟 1980 年代彩色胶片效果，轻微颗粒。"
"电影级调色，青色阴影保留高光细节，压低饱和度。"
"宝丽来即时成像风格，边缘暗角，色彩略微偏暖。"

6.4 材质与纹理

不要只说"一件西装外套"，而要描述材质：

"深海军蓝粗花呢面料，带有隐约的人字纹图案。"
"碳纤维纹理的轻量化防护外壳。"
"哑光黑色陶瓷马克杯，表面有细微釉裂纹理。"

7. 可配置推理级别：Minimal vs High/Dynamic

Nano Banana 2 提供两种推理模式：

Minimal（默认）：优化延迟，适合简单直接的任务。模型快速响应，适合高吞吐量的批量生成场景。
High / Dynamic：模型会投入更多推理资源来分析复杂提示词，在生成前进行更充分的语义理解。适合包含多个约束条件的复杂指令。

对于包含多个同时要求、多层逻辑或需要高度遵循细节的提示词，建议切换到 High/Dynamic 模式以获得更精准的结果。

8. 实战提示词模板库

模板一：人物肖像

一张电影感的肖像照，[主体描述，包括发型、肤色、服装细节]。
使用[相机型号/镜头类型]从[角度]拍摄。
光线来自[方向和类型]，营造[氛围描述]的色调。
背景是[场景描述]，虚化成[程度]的散景。
整体色调为[色彩分级描述]。

模板二：产品展示

高端 glossy 商业产品摄影，[产品名称和材质描述]。
产品放置在[背景描述]上。
工作室布光：[布光方案描述]，强调[材质特征]。
产品旁边渲染一行文字：[具体文案]，[字体风格描述]。
[相机和镜头设定]，[景深设定]。

模板三：信息图表

[信息图表类型]——[主题]。
使用[具体风格，如扁平化、合成立体主义、水彩]风格。
配色方案：[具体色彩组合]。
信息以[排版方式]组织，包括[具体数据点/分类]。
视觉引导元素：[箭头、图标等]使用[具体风格描述]。

模板四：多角色故事板

生成一幅[场景描述]的画面。
画面中必须包含[数量]个角色，每个角色的外貌特征为[详细描述]。
[角色1]正在[动作1]，[角色2]正在[动作2]……
所有角色的身份和着装必须严格保持一致。
整体氛围为[氛围描述]。比例：[具体比例]。

9. 常见问题与解决思路

问题	原因	解决思路
文字错漏或乱码	文字指令不够具体	使用引号包裹文字 + 分两步走
角色外观不一致	提示词中缺少特征锚定	上传参考图并在提示词中引用
场景不符合现实	缺乏搜索 grounding	添加"先搜索参考再生成"指令
修改后其他元素变形	编辑指令不够精确	明确标注"保持不变"的部分
超宽/超高比例变形	模型对极端比例理解不足	降低比例到 21:9 以内再尝试

10. 结语

Nano Banana 2 的提示词工程，本质上是一场从"随机抽卡"到"精准导演"的进化。掌握以上框架和技巧后，你会发现 AI 图像生成不再是玄学，而是一门可以系统化学习和优化的技能。

记住：模型的理解能力取决于你的表达能力。描述得越具体、越有画面感，结果就越接近你的想象。

推荐使用工具：
Gemini/GPT 聚合站：https://ai.lanjingchat.com（支持多模型切换）
AI 镜像站直达：https://lazymanchat.com（高速稳定）
AI 中文版入口：https://huoyachat.com
备用镜像节点：https://gptokk.com

Nano Banana 2 提示词终极指南：从入门到精通的实战技巧 ​

1. 核心原则：像创意总监一样思考 ​

2. 图文生成：从空白画布到专业大作 ​

2.1 纯文字生成公式 ​

2.2 多模态生成（结合参考图） ​

3. 语义编辑：精准修改而不破坏整体 ​

3.1 对话式编辑 ​

3.2 语义遮罩（意图感知编辑） ​

3.3 构图与风格迁移 ​

4. 实时搜索 grounding：让图像反映真实世界 ​

工作原理 ​

提示词变化 ​

5. 精准文字渲染与本地化 ​

5.1 基础文字渲染 ​

5.2 两步文字法（Text-first Hack） ​

5.3 多语言翻译与本地化 ​

6. 创意总监模式：掌控光影、镜头与质感 ​

6.1 光线设计 ​

6.2 镜头与景深控制 ​

6.3 色彩分级与胶片质感 ​

6.4 材质与纹理 ​

7. 可配置推理级别：Minimal vs High/Dynamic ​

8. 实战提示词模板库 ​

模板一：人物肖像 ​

模板二：产品展示 ​

模板三：信息图表 ​

模板四：多角色故事板 ​

9. 常见问题与解决思路 ​

10. 结语 ​

Nano Banana 2 提示词终极指南：从入门到精通的实战技巧

1. 核心原则：像创意总监一样思考

2. 图文生成：从空白画布到专业大作

2.1 纯文字生成公式

2.2 多模态生成（结合参考图）

3. 语义编辑：精准修改而不破坏整体

3.1 对话式编辑

3.2 语义遮罩（意图感知编辑）

3.3 构图与风格迁移

4. 实时搜索 grounding：让图像反映真实世界

工作原理

提示词变化

5. 精准文字渲染与本地化

5.1 基础文字渲染

5.2 两步文字法（Text-first Hack）

5.3 多语言翻译与本地化

6. 创意总监模式：掌控光影、镜头与质感

6.1 光线设计

6.2 镜头与景深控制

6.3 色彩分级与胶片质感

6.4 材质与纹理

7. 可配置推理级别：Minimal vs High/Dynamic

8. 实战提示词模板库

模板一：人物肖像

模板二：产品展示

模板三：信息图表

模板四：多角色故事板

9. 常见问题与解决思路

10. 结语