Skip to content

Nano Banana 2 提示词终极指南:从入门到精通的实战技巧

Nano Banana 2(Gemini 3.1 Flash Image)不仅仅是一款更快的 AI 绘图模型——它内置了 Gemini 3.1 Flash 的深度推理引擎,能够在生成图像前真正"理解"你的意图。要充分发挥这一能力,关键在于掌握一套科学有效的提示词框架。本文将基于 Google 官方文档和大量实测经验,为你系统梳理 Nano Banana 2 的提示词工程最佳实践。

1. 核心原则:像创意总监一样思考

在使用 Nano Banana 2 时,最重要的心态转变是:不要像搜索引擎一样输入关键词,而要像创意总监一样描述场景。

模型响应的质量直接取决于你描述的丰富程度和精确程度。每一个细节——光线的方向、人物的姿态、背景的材质——都是引导模型生成精确图像的信号。

四项基本准则:

  1. 具体化(Be Specific):提供关于主体、光线和构图的具象细节。
  2. 正向表达(Positive Framing):描述你想要什么,而非你不想要什么。例如用"空旷的街道"代替"没有汽车的街道"。
  3. 控制镜头语言:使用摄影和电影术语(如"低角度"、"航拍视角")来驾驭画面构图。
  4. 迭代优化:以对话方式逐步细化图像,每一次反馈都会让结果更贴近你的设想。

2. 图文生成:从空白画布到专业大作

2.1 纯文字生成公式

当你没有提供任何参考图,从零开始创作时,建议使用以下结构:

[主体] + [动作/状态] + [场景/环境] + [构图] + [风格]

示例:

主体:一位身着一件修身棕色连衣裙、脚踩利落短靴、手持结构化手提包的时尚模特。

动作/状态:姿态自信,双腿略微交叉站立,身体微微侧转。

场景/环境:无缝深樱桃红影棚背景。

构图:中全景镜头,画面中心构图。

风格:时尚杂志风格编辑摄影,使用中画幅胶片拍摄,高颗粒感,高饱和度,电影光效。

将以上元素用自然语言串联,就得到了一条高质量的 Nano Banana 2 提示词。

2.2 多模态生成(结合参考图)

Nano Banana 2 支持在单次提示词中混入 最多 14 张参考图,这是保持风格一致性和物体一致性的关键能力。

公式:

[参考图] + [关系指令] + [新场景描述]

示例:

以附件中的餐巾纸草图作为结构框架,以附件中的面料样本作为纹理参考,将这个设计转化为一张高保真的 3D 扶手椅渲染图。将它放置在一个阳光充足、极简主义的客厅场景中。

这种模式在以下场景中尤为有效:

  • 风格迁移:参考一张照片,让模型以特定艺术风格重新创作。
  • 物体合成:将产品图放入特定场景中,生成营销素材。
  • 角色一致性:上传角色设定图,确保后续所有图像中的角色外观不变。

3. 语义编辑:精准修改而不破坏整体

编辑与生成需要完全不同的思维模式。当你已经有一张基础图像时,提示词的核心变成了:明确什么需要改变,什么必须保持不变。

3.1 对话式编辑

最简单的方式是直接用自然语言描述修改意图:

  • "把这张照片里的男人去掉。"
  • "把这只猫的颜色改成橘色。"
  • "把背景换成黄昏的街道。"

模型会自动理解你的意图,在保留主体不变的前提下完成修改。

3.2 语义遮罩(意图感知编辑)

你可以通过自然语言定义一个"语义遮罩",精准修改图像的特定区域而完全不影响其他部分:

提示词:"将背景中的天空替换为暴风雨的乌云,但保留前景中的人物和建筑完全不变。"

这就是 Nano Banana 2 的 Intent-aware Editing 能力——无需使用传统 PS 中的套索或钢笔工具,只需用语言描述你的意图。

3.3 构图与风格迁移

引入新的参考图来改造已有图像:

  • 添加元素:上传一张基础场景图和一张物体图,让模型将物体合成到场景中。
  • 风格迁移:上传一张城市街道的照片,要求模型以梵高风格重新呈现。

4. 实时搜索 grounding:让图像反映真实世界

Nano Banana 2 的一大独特能力是调用 Google 搜索的实时数据和图像来增强生成内容的准确性。

工作原理

传统的 AI 绘图模型只能依靠训练数据来渲染事物,而 Nano Banana 2 可以主动搜索真实世界的视觉参考,确保生成结果的准确性。

提示词变化

不再描述一个虚构场景,而是引导模型进行搜索→分析→可视化的三步流程:

公式:

[来源/搜索请求] + [分析任务] + [视觉翻译]

示例:

"搜索当前旧金山的天气和日期数据。分析这些数据对场景的影响(例如如果下雨则渲染灰雨天气)。将这个场景以'城市杯中景'的概念呈现在一个逼真的现代智能手机 UI 界面中。"

"先搜索博物馆 Clos Lucé 的真实照片作为视觉参考,然后以明亮色彩的合成立体主义风格生成这个建筑的形象,不要包含任何文字。"

通过在提示词末尾添加 "Your plan is to first search for visual references, and generate after.",你可以显式引导模型启用搜索 grounding 功能。

5. 精准文字渲染与本地化

Nano Banana 2 在文字渲染方面的能力已经达到生产级可用水平。要获得最佳的文字效果,以下是几个经过验证的技巧:

5.1 基础文字渲染

  • 使用引号:将你希望出现的文字用引号包裹起来。

    生成一张复古风格的餐厅海报,画面中央有一块黑板,上方用白色粉笔字体写着"今日特餐"。

  • 描述字体风格:明确指定字体类型和特征。

    渲染三个层次的文字,顶部为"限时优惠"使用粗体 Impact 字体,中间为"5折"使用超大字号的霓虹风格字体,底部为"仅限本周"使用细体无衬线字。

5.2 两步文字法(Text-first Hack)

Google 官方文档推荐的最佳实践是 分两步走

  1. 第一步:先与模型对话,让它生成文字内容的创意概念(确定文案、排版和风格方案)。
  2. 第二步:要求模型生成包含这些精确文字内容的图像。

这种"文字先行"的策略能显著提升文字渲染的准确性,因为模型在生成图像前已经对文字内容有了充分的理解和排版规划。

5.3 多语言翻译与本地化

Nano Banana 2 支持超过 10 种语言的图像内文字生成和翻译:

"将这张贺卡上的所有文字翻译成韩语和阿拉伯语,保持相同的文字风格。"

在本地化场景中,模型不仅会翻译文字内容,还会相应地调整画面元素以适应目标语言的文化背景——例如将一张野生动物保护提示牌从英文本地化为印地语版本时,背景的动植物也会被替换为印度本地的物种。

6. 创意总监模式:掌控光影、镜头与质感

要让图像从"不错"跃升到"惊艳",你需要像专业摄影师和艺术指导一样思考。

6.1 光线设计

  • 影棚布光:"使用三点式柔光箱布光均匀照亮产品。"
  • 戏剧光效:"使用伦勃朗光效,正面偏侧硬光制造深邃阴影。"
  • 黄金时刻:"午后侧光制造长投影,营造温暖怀旧氛围。"
  • 氛围光:"暖黄色台灯光源从画面左侧打来,形成轮廓光。"

6.2 镜头与景深控制

  • 相机型号改变视觉DNA

    "用 GoPro 拍摄以获得沉浸式广角动作感。" "使用富士相机获得自然的色彩科学。" "模拟一次性胶片机的质感,带有复古闪光和颗粒。"

  • 镜头类型

    "浅景深(f/1.8)突出主体,背景柔化散焦。" "移轴镜头效果制造微缩模型感。" "鱼眼镜头夸张透视增强戏剧张力。"

  • 景深与焦平面

    "深景深让前景和背景同样清晰,适合建筑摄影。" "极浅景深只让主体眼睛保持锐利,其余全部虚化。"

6.3 色彩分级与胶片质感

  • "模拟 1980 年代彩色胶片效果,轻微颗粒。"
  • "电影级调色,青色阴影保留高光细节,压低饱和度。"
  • "宝丽来即时成像风格,边缘暗角,色彩略微偏暖。"

6.4 材质与纹理

不要只说"一件西装外套",而要描述材质:

  • "深海军蓝粗花呢面料,带有隐约的人字纹图案。"
  • "碳纤维纹理的轻量化防护外壳。"
  • "哑光黑色陶瓷马克杯,表面有细微釉裂纹理。"

7. 可配置推理级别:Minimal vs High/Dynamic

Nano Banana 2 提供两种推理模式:

  • Minimal(默认):优化延迟,适合简单直接的任务。模型快速响应,适合高吞吐量的批量生成场景。
  • High / Dynamic:模型会投入更多推理资源来分析复杂提示词,在生成前进行更充分的语义理解。适合包含多个约束条件的复杂指令。

对于包含多个同时要求、多层逻辑或需要高度遵循细节的提示词,建议切换到 High/Dynamic 模式以获得更精准的结果。

8. 实战提示词模板库

模板一:人物肖像

一张电影感的肖像照,[主体描述,包括发型、肤色、服装细节]。
使用[相机型号/镜头类型]从[角度]拍摄。
光线来自[方向和类型],营造[氛围描述]的色调。
背景是[场景描述],虚化成[程度]的散景。
整体色调为[色彩分级描述]。

模板二:产品展示

高端 glossy 商业产品摄影,[产品名称和材质描述]。
产品放置在[背景描述]上。
工作室布光:[布光方案描述],强调[材质特征]。
产品旁边渲染一行文字:[具体文案],[字体风格描述]。
[相机和镜头设定],[景深设定]。

模板三:信息图表

[信息图表类型]——[主题]。
使用[具体风格,如扁平化、合成立体主义、水彩]风格。
配色方案:[具体色彩组合]。
信息以[排版方式]组织,包括[具体数据点/分类]。
视觉引导元素:[箭头、图标等]使用[具体风格描述]。

模板四:多角色故事板

生成一幅[场景描述]的画面。
画面中必须包含[数量]个角色,每个角色的外貌特征为[详细描述]。
[角色1]正在[动作1],[角色2]正在[动作2]……
所有角色的身份和着装必须严格保持一致。
整体氛围为[氛围描述]。比例:[具体比例]。

9. 常见问题与解决思路

问题原因解决思路
文字错漏或乱码文字指令不够具体使用引号包裹文字 + 分两步走
角色外观不一致提示词中缺少特征锚定上传参考图并在提示词中引用
场景不符合现实缺乏搜索 grounding添加"先搜索参考再生成"指令
修改后其他元素变形编辑指令不够精确明确标注"保持不变"的部分
超宽/超高比例变形模型对极端比例理解不足降低比例到 21:9 以内再尝试

10. 结语

Nano Banana 2 的提示词工程,本质上是一场从"随机抽卡"到"精准导演"的进化。掌握以上框架和技巧后,你会发现 AI 图像生成不再是玄学,而是一门可以系统化学习和优化的技能。

记住:模型的理解能力取决于你的表达能力。描述得越具体、越有画面感,结果就越接近你的想象。


推荐使用工具:

Gemini 中文版博客