Skip to content

Gemini 3.5 Flash 全面评测:编程与 Agent 能力超越上代 Pro,4 倍速度革新

最后更新时间: 2026年5月20日

2026年5月19日,Google I/O 开发者大会如期而至。在这场备受全球开发者瞩目的年度盛会上,Google DeepMind 正式发布了 Gemini 3.5 Flash ——这是 Gemini 3.5 家族的旗舰首发模型,也被 Google 称为"迄今为止最强的 Agent 与编程模型"。

Gemini 3.5 Flash 的核心定位,是将前沿级(Frontier)智能与 Flash 系列的效率优势合二为一。它在 Terminal-Bench 2.1、MCP Atlas、Finance Agent v2 等编程与 Agent 类 benchmark 上全面超越上代 Gemini 3.1 Pro,同时输出速度达到同级前沿模型的约 4 倍,在 Antigravity 中更是实现了高达 12 倍的速度提升。更令人惊喜的是,其 API 定价较 3.1 Pro 降低约 40%,真正做到了"性能更强、价格更低"。

本文将为你深度解析 Gemini 3.5 Flash 的所有核心细节,包括 benchmark 对比、定价体系、应用场景与国内使用攻略。

💡 推荐使用工具:


1. Gemini 3.5 Flash 是什么?

Gemini 3.5 Flash 是 Google 基于 Gemini 3.5 架构打造的高速前沿模型,属于 Flash 效率系列的新一代旗舰产品。它于 2026 年 5 月 19 日在 Google I/O 大会上正式发布,即日起在全球范围内全面可用。

与此前 Gemini Flash 系列"轻量高效"的定位略有不同,Gemini 3.5 Flash 首次在核心能力维度(编程与 Agent)上超越了同家族的 Pro 级模型,实现了速度与智能的真正统一。Google 官方将其描述为:"Intelligence in a Flash ——以 Flash 的速度,获得前沿级的智能"。

Gemini 3.5 Flash 官网链接: https://deepmind.google/models/gemini/flash/

1.1 核心定位:速度与智能兼得

长久以来,AI 模型界存在一个 trade-off:要么选择高速但能力有限的轻量模型,要么选择能力强大但响应较慢的重型模型。Gemini 3.5 Flash 的出现,打破了这一困局。

Google 在官方博客中表示:"You no longer have to trade quality for latency"(你再也不用以牺牲质量来换取延迟了)。Gemini 3.5 Flash 凭借超过 280 output tokens/s 的输出速度(比 Gemini 3 Flash 快约 70%),在 Artificial Analysis Intelligence Index 上取得了 55 分,跃居速度-智能 Pareto 前沿,超越了 Grok 4.3(53分)和 Claude Sonnet 4.6(52分),同时价格却远低于大多数同级前沿模型。


2. 核心特性:Gemini 3.5 Flash 带来了什么?

2.1 编程与 Agent 能力跃升:首次超越 Pro 级模型

Gemini 3.5 Flash 最引人注目的突破,在于它首次让 Flash 系列在编程与 Agent 核心能力上全面超越上代 Pro 级模型。以下是关键 benchmark 数据:

测试场景Gemini 3.5 FlashGemini 3.1 Pro提升幅度
Terminal-Bench 2.1(编程)76.2%70.3%+5.9%
MCP Atlas(多步骤工作流)83.6%78.2%+5.4%
Finance Agent v2(金融分析决策)57.9%43.0%+14.9%
Toolathlon(通用工具使用)56.5%
SWE-Bench Pro(代码任务)55.1%54.2%+0.9%
OSWorld-Verified(计算机操作)78.4%76.2%+2.2%
GDPval-AA(真实经济价值任务)1656 ELO1314 ELO+26%

这些数字背后,意味着 Gemini 3.5 Flash 能够:

  • 自动化复杂编程任务:在 Terminal-Bench 中达到 76.2%,意味着它能可靠地执行复杂的命令行编程操作,包括代码调试、重构和自动化部署。
  • 协调多步骤工作流:MCP Atlas 83.6% 的得分,证明它在 Agent 类任务中具备卓越的多步骤规划和执行能力。
  • 处理真实经济价值任务:GDPval-AA 1656 ELO 相比 3.1 Pro 的 1314 ELO 提升了 26%,这是一个衡量模型在真实经济活动中执行能力的权威指标。

Artificial Analysis 的评测更是直接指出:Gemini 3.5 Flash 在 GDPval-AA(真实世界 Agentic 任务) 上的表现仅次于 GPT-5.4,在 Agent 能力上取得了对 Google 历史上相对弱势领域的重大突破。

2.2 前沿级多模态理解:多模态性能全面领先

Gemini 3.5 Flash 不仅在 Agent 能力上表现出色,多模态理解同样达到了前沿水平:

测试场景Gemini 3.5 FlashGemini 3.1 ProClaude Opus 4.7GPT-5.5
CharXiv Reasoning(复杂图表信息综合)84.2%83.3%82.1%84.1%
MMMU-Pro(多模态理解与推理)83.6%80.5%75.2%81.2%
Blueprint-Bench 2(空间推理)33.6%26.5%24.5%36.2%

MMMU-Pro(多模态理解与推理的权威测试)中,Gemini 3.5 Flash 以 83.6% 的得分创下 Artificial Analysis 的历史最高纪录,超越了 Claude Opus 4.7 和 GPT-5.5。同时,它支持文本、图像、音频、视频、PDF 的多模态输入,涵盖范围比大多数竞品更广——竞品往往仅支持图像输入。

2.3 4 倍速度优势:重新定义"快"的含义

Gemini 3.5 Flash 的速度优势体现在多个维度:

  • 输出速度:超过 280 output tokens/s,比 Gemini 3 Flash 快约 70%,比大多数同级前沿模型快约 4 倍
  • Antigravity 加速:在 Google Antigravity 平台中,Gemini 3.5 Flash 的速度提升高达 12 倍,远超标准 API 水平。
  • 首字延迟(TTFT):大幅降低,用户几乎感受不到等待。

速度的提升并不以牺牲质量为代价——Gemini 3.5 Flash 在多个 benchmark 上反而实现了对 3.1 Pro 的超越,真正做到了"又快又好"。

2.4 100 万 Token 超长上下文窗口

Gemini 3.5 Flash 延续了 Gemini 3 系列标志性的 1,048,576 token(100万)输入上下文窗口,最大输出 65,536 token(64K),支持用户一次性上传一整部小说、一个完整的 GitHub 代码库或数十小时的视频内容。

上下文长度Gemini 3.5 FlashGemini 3 FlashGemini 3.1 Pro
128k 平均分77.3%67.2%84.9%
1M pointwise26.6%22.1%26.3%

在 100 万 token 长上下文检索(MRCR v2)pointwise 评测中,Gemini 3.5 Flash 以 26.6% 领先于 3.1 Pro(26.3%)和 3 Flash(22.1%),是 Google 公布数据中 1M 场景下的最高分。

2.5 动态思考机制:更智能的推理控制

Gemini 3.5 Flash 引入了全新的 动态思考(Dynamic Thinking) 机制,作为此前 thinking_budget 整数参数机制的升级:

  • 通过 thinking_level 字符串枚举参数控制推理深度:minimal / low / medium / high
  • 默认值为 medium,开箱即用,无需额外配置
  • 用户可以根据任务复杂度灵活切换:简单任务用 minimal,复杂推理任务用 high
  • high 模式下,Artificial Analysis 记录到 Gemini 3.5 Flash 在 GDPval-AA 上达到 1656 ELO

2.6 完整工具链支持

Gemini 3.5 Flash 支持全套企业级功能:

  • Function Calling:可靠的函数调用能力
  • Structured Output:结构化输出保证
  • Search as a Tool:搜索即工具
  • Code Execution:代码执行
  • Context Caching:上下文缓存,缓存输入价格仅 $0.15 / 1M tokens(标准层)
  • Grounding with Google Maps:Maps 接地,支持真实地理信息查询
  • URL Context:URL 上下文,可分析网页内容

3. Benchmark 全面对比:Gemini 3.5 Flash 在行业中处于什么位置?

以下是 Google 官方公布的完整 benchmark 数据,涵盖编码、Agent、多模态、长上下文和推理五大维度:

测试维度测试集Gemini 3.5 FlashGemini 3 FlashGemini 3.1 ProClaude Sonnet 4.6Claude Opus 4.7GPT-5.5
编程Terminal-Bench 2.176.2%58.0%70.3%66.1%78.2%
编程SWE-Bench Pro55.1%49.6%54.2%64.3%58.6%
AgenticMCP Atlas83.6%62.0%78.2%69.5%79.1%75.3%
AgenticToolathlon56.5%49.4%55.6%
UI控制OSWorld-Verified78.4%65.1%76.2%72.5%78.0%78.7%
专家任务Finance Agent v257.9%42.6%43.0%51.0%51.5%51.8%
专家任务GDPval-AA165612041314167617531769
多模态CharXiv Reasoning84.2%80.3%83.3%72.4%82.1%84.1%
多模态MMMU-Pro83.6%81.2%80.5%74.5%75.2%81.2%
多模态Blueprint-Bench 233.6%0.0%26.5%6.7%24.5%36.2%
长上下文MRCR v2 (128k)77.3%67.2%84.9%84.9%59.3%94.8%
长上下文MRCR v2 (1M)26.6%22.1%26.3%
推理Humanity's Last Exam40.2%33.7%44.4%33.2%46.9%41.4%
推理ARC-AGI-272.1%33.6%77.1%58.3%75.8%84.6%

数据来源:所有 Gemini 分数均为 pass@1(单次尝试),以 Google 官方发布数据为准。第三方模型数据来自各厂商自报数据。

核心解读

  1. 编程与 Agent 双线领先:在 Terminal-Bench 2.1(76.2%)上,Gemini 3.5 Flash 超越了 Claude Opus 4.7(66.1%)和 GPT-5.5(78.2%的竞品基准),仅次于 GPT-5.5 自身报告的分数。在 MCP Atlas 上更是以 83.6% 大幅领先所有竞品。

  2. 多模态王者:在 MMMU-Pro(83.6%)和 CharXiv Reasoning(84.2%)上均取得最高分,Gemini 3.5 Flash 在多模态理解领域确立了行业领先地位。

  3. Agent 能力显著突破:GDPval-AA 从 3.1 Pro 的 1314 跃升至 1656(+26%),MCP Atlas 从 78.2% 升至 83.6%,Finance Agent v2 从 43.0% 升至 57.9%(+14.9%)。Agent 能力一直是 Gemini 相比竞品的短板,3.5 Flash 在这一领域实现了质的飞跃。

  4. 速度-智能 Pareto 前沿:Artificial Analysis 将 Gemini 3.5 Flash 置于 Intelligence-Speed Pareto Frontier 的右上角——这是指在给定智能水平下速度最快、在给定速度下智能最强的模型位置。


4. 真实应用场景:企业级案例

Gemini 3.5 Flash 的强大 Agent 能力已经在实际生产中展现出价值,Google 官方披露了多个企业合作案例:

企业应用场景效果
Shopify并行运行多个子 Agent 分析复杂长周期数据更准确的全球商家增长预测
Macquarie Bank跨 100+ 页复杂文档推理,检索信息并给出可靠建议加速客户 onboarding 流程
SalesforceAgentforce 平台多子 Agent 协作,自动执行复杂企业任务复杂多轮工具调用的上下文保持
Ramp多模态理解复杂发票 + 历史模式推理更智能可靠的 OCR 处理
Xero自动管理多周工作流(识别供应商、收集 1099 税表信息)小型企业行政任务自动化
Databricks监控和检索实时信息,跨大数据集诊断问题并提出修复方案数据科学家工作效率大幅提升
Box企业工作流评估集(多步骤真实任务)相比 3 Flash 提升 19.6%
Armadin长期多轮网络安全 benchmark性能提升 42%,Token 使用减少 72%

5. Gemini 3.5 Flash vs Gemini 3.1 Flash:代际升级有多大?

维度Gemini 3.5 FlashGemini 3 Flash变化
Terminal-Bench 2.176.2%58.0%+18.2%
MCP Atlas83.6%62.0%+21.6%
GDPval-AA16561204+452 (+37.5%)
MMMU-Pro83.6%81.2%+2.4%
CharXiv Reasoning84.2%80.3%+3.9%
ARC-AGI-272.1%33.6%+38.5%
输出速度280+ tokens/s~165 tokens/s+70%
Intelligence Index5546+9 分

如果说 Gemini 3 Flash 是一个"聪明的快速模型",那么 Gemini 3.5 Flash 就是"聪明的极速模型"——它在几乎所有维度上都实现了显著提升,尤其在 Agentic 能力和推理能力上有着质的飞跃。


6. 产品定价:性价比依然是 Flash 的核心优势

尽管 Gemini 3.5 Flash 的单 Token 价格相比 3 Flash 有所上调(输入从 $0.50 涨至 $1.50),但与同级别前沿模型相比,它的成本优势依然明显。Google CEO Sundar Pichai 在 I/O 大会上表示,Gemini 3.5 Flash 的成本"约为竞品同级模型的 三分之一到二分之一"。

标准定价(Standard Tier)

计费维度价格说明
输入 tokens$1.50 / 1M tokens
输出 tokens$9.00 / 1M tokens含思考 tokens
缓存输入 tokens$0.15 / 1M tokens存储费另计 $1.00 / 1M tokens / 小时
非全球区域$1.65 / $9.90 / 1M tokens
Grounding (Search/Maps)前 5,000 次/月免费超出后 $14 / 1,000 次查询

批量定价(Batch Tier)

计费维度价格
输入 tokens$0.75 / 1M tokens
输出 tokens$4.50 / 1M tokens
缓存输入 tokens$0.075 / 1M tokens

优先级定价(Priority Tier)

计费维度价格
输入 tokens$2.70 / 1M tokens
输出 tokens$16.20 / 1M tokens

注意:超过 200K tokens 的长上下文查询按长上下文费率计费。具体价格以 Google 官方定价页为准。

成本对比分析

虽然 Gemini 3.5 Flash 的 Token 定价是 3 Flash 的 3 倍,但由于以下原因,实际使用成本反而可能更低:

  1. 更高的单次任务完成率:更强的问题解决能力意味着更少的重试次数
  2. 更少的 Token 消耗:在 GDPval-AA 等 Agent 评测中,3.5 Flash 的 Token 效率更高
  3. 更快的速度:相同时间能完成更多任务,等效成本更低

7. 竞品横向对比:Gemini 3.5 Flash 值得选择吗?

维度Gemini 3.5 FlashClaude Sonnet 4.6Claude Opus 4.7GPT-5.5
Terminal-Bench 2.176.2%66.1%78.2%
MCP Atlas83.6%69.5%79.1%75.3%
GDPval-AA1656167617531769
MMMU-Pro83.6%74.5%75.2%81.2%
CharXiv84.2%72.4%82.1%84.1%
输出速度280+ tokens/s
上下文窗口1M
多模态输入文本/图像/音频/视频/PDF图像/文本图像/文本图像/文本
API 成本(输入)$1.50/M

选型建议:

  • 如果你的核心需求是 Agent 工作流、编程自动化、长程任务执行,Gemini 3.5 Flash 的 Agent 能力和 1M 上下文窗口是无可替代的优势
  • 如果你需要 最低成本的超高速调用,Gemini 3.1 Flash Lite($0.25/M 输入)仍然是性价比首选
  • 如果你需要 最强推理能力(HLE、ARC-AGI-2),Claude Opus 4.7 或 Gemini 3.5 Pro(6月发布)可能更适合
  • 如果你追求 综合多模态理解(含音频视频),Gemini 3.5 Flash 是当前最好的选择

8. 如何使用 Gemini 3.5 Flash

8.1 Gemini App(免费,面向所有用户)

打开 https://gemini.google.com,Gemini 3.5 Flash 已作为全球默认模型上线,Gemini App 和 Google Search AI Mode 中均可免费使用。

8.2 Google Search AI Mode

在 Google 搜索中切换到 AI Mode,即由 Gemini 3.5 Flash 驱动,适合日常信息查询。

8.3 Gemini API(开发者,付费)

访问 https://ai.google.dev,使用模型 ID gemini-3.5-flash 调用 API。标准免费层包含一定的免费调用额度。

python
from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[{
        "text": "帮我分析这段代码的性能瓶颈,并给出优化建议"
    }],
    config={
        "thinking_level": "high",  # 可选: minimal/low/medium/high
        "tools": [{"google_search": {}}]
    }
)

print(response.text)

8.4 Google AI Studio

访问 https://aistudio.google.com,在模型选择器中选择 gemini-3.5-flash,支持交互式测试和多模态内容上传。

8.5 Google Antigravity(Agent 开发平台)

Gemini 3.5 Flash 是 Antigravity 2.0 的默认模型,专为 Agent 开发设计,支持并行子 Agent 协作。Antigravity 中速度提升可达 12 倍。

8.6 Vertex AI(企业级)

通过 Vertex AI Agent Platform 接入,继承 Google Cloud 企业级安全、合规和 SLA 保障体系。

8.7 国内开发者接入(免翻墙)

平台网址特点
懒人Chathttps://lazymanchat.com高速稳定,国内直连
houyaAIhttps://chat.huoyachat.com多模型切换

9. Gemini Spark:Gemini 3.5 Flash 驱动的个人 AI Agent

在 I/O 大会上,Google 还发布了由 Gemini 3.5 Flash 驱动的个人 AI Agent 产品——Gemini Spark

Gemini Spark 定位为"你的个人 AI 助手",具备以下能力:

  • 全天候运行(24/7):持续监控和帮助用户处理数字生活中的各种任务
  • 跨应用推理:能够理解并操作用户已连接的各种应用中的信息
  • 用户指令优先:所有行动在用户明确授权和指导下执行
  • Gemini 3.5 Flash 驱动:受益于 3.5 Flash 在 Agent 能力和速度上的全面升级

Gemini Spark 目前已向部分受信任测试者开放 Beta 测试,计划下周起向美国 Google AI Ultra 订阅用户开放。


10. Gemini 3.5 Flash 与 Gemini 3.5 Pro:有什么区别?

维度Gemini 3.5 FlashGemini 3.5 Pro(即将发布)
发布时间2026年5月19日预计2026年6月
定位高速前沿最高智能
速度极快(4倍速)相对较慢
Agent 能力极强预计更强
上下文窗口1M token预计更大
价格$1.50 / $9.00 per 1M预计更高

Gemini 3.5 Flash 是 3.5 家族的"急先锋",而更强大的 3.5 Pro 预计将于下月(2026年6月)发布,届时 Google 将提供完整的前沿级产品线。


11. 常见问题解答 (FAQ)

Q:Gemini 3.5 Flash 和 Gemini 3.1 Pro 相比如何?

A:Gemini 3.5 Flash 在编程与 Agent 类 benchmark 上全面超越 3.1 Pro(如 Terminal-Bench 76.2% vs 70.3%、MCP Atlas 83.6% vs 78.2%、GDPval-AA 1656 vs 1314),同时速度约为后者的 4 倍,成本降低约 40%。3.1 Pro 在 Humanity's Last Exam(44.4% vs 40.2%)和 ARC-AGI-2(77.1% vs 72.1%)等纯推理 benchmark 上仍有微弱优势。

Q:Gemini 3.5 Pro 什么时候发布?

A:Google 官方表示 Gemini 3.5 Pro 正在内部使用中,预计下月(2026 年 6 月)正式发布。

Q:Gemini 3.5 Flash 支持图像 / 音频生成吗?

A:不支持。Gemini 3.5 Flash 仅支持文本输出。图像生成需使用 Gemini Image 等专用模型,音频生成需使用 TTS 专用模型。

Q:Gemini 3.5 Flash 可以免费使用吗?

A:在 Gemini App 和 Google Search AI Mode 中免费使用。开发者通过 API 调用按 Token 计费($1.50 / $9.00 per 1M tokens)。

Q:thinking_level 参数怎么用?

A:Gemini 3.5 Flash 使用字符串枚举参数 thinking_levelminimal / low / medium / high)控制推理深度,默认值为 medium。替代了此前 Gemini 3 Flash Preview 的整数 thinking_budget 机制。

Q:Gemini 3.5 Flash 相比 Gemini 3 Flash 的价格变化大吗?

A:价格有所上调(输入从 $0.50 涨至 $1.50,约 3 倍),但考虑到 Agent 能力大幅提升(+37.5% GDPval-AA)、速度提升 70%、多模态理解创纪录等因素,以及相比竞品仍具成本优势,整体性价比依然出色。

Q:国内开发者如何接入 Gemini 3.5 Flash?

A:推荐使用前文提到的国内聚合平台(懒人Chat、蓝鲸AI、懒人聚义等),无需翻墙即可体验完整功能,支持 API 接入和网页对话。


12. 总结:Gemini 3.5 Flash 开启了"速度即智能"的新时代

Gemini 3.5 Flash 的发布,是 Google 在 AI 领域的一次里程碑式突破。它用实际数据证明:速度和智能不再是非此即彼的选择

  • 编程与 Agent 能力:全面超越上代 Pro 级模型,在 MCP Atlas(83.6%)、Finance Agent v2(57.9%)、GDPval-AA(1656 ELO)等关键指标上实现了大幅领先
  • 速度优势:4 倍于同级前沿模型的输出速度(280+ tokens/s),Antigravity 中高达 12 倍
  • 多模态王者:MMMU-Pro(83.6%)创下 Artificial Analysis 评测历史最高分,支持最广泛的多模态输入格式
  • 成本优化:API 定价较 3.1 Pro 降低约 40%,实际任务完成成本更具竞争力

更重要的是,Gemini 3.5 Flash 证明了 Flash 系列的可能性边界——它不再只是"轻量快速"的代名词,而是真正能够驱动企业级 Agent 工作流、支撑复杂编程任务的前沿级引擎。

随着 Gemini 3.5 Pro 即将于下月发布,Google 的 Gemini 3.5 家族正在以完整的产品线,重新定义 AI 模型的速度-智能 frontier。

立即行动:


关键词标签:Gemini 3.5 Flash, Google I/O 2026, Gemini 3.5, Google AI, AI Agent, 编程模型, Agent能力, Gemini Flash, Gemini 3.5 Pro, Google DeepMind, Gemini中文版, Gemini API, Gemini编程, 多模态AI, 智能体

Gemini 中文版博客