视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

6.9

深览指数

科技微博·量子位·7小时前·AI 生成

视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

谷歌发布了两个多模态模型：视频生成模型Gemini Omni Flash（每秒0.1美元，支持10秒视频的自然语言编辑）和图像生成模型Nano Banana 2 Lite（出图仅需4秒，成本约为初代Nano Banana的一半）。文章展示了将两者串联使用的“Workflow”，如电商素材自动生成。核心信息点是：谷歌在多模态领域有显著的产品化优势，但承认Coding能力是短板，且两款模型各有明确的现有限制（视频时长、人物一致性等）。适合对AI产品动态、多模态落地场景及成本敏感的技术决策者阅读。原文 ↗原文 ↗

核心观点

▍Google在多模态AI领域的产品化落地速度领先，尽管其Coding能力暂时落后，但多模态这张牌桌上Google可能是唯一能整合完整产品生态的玩家。

01Gemini Omni Flash已正式向开发者开放，具备对话式视频编辑、多模态参考、世界知识运用、文字与动作同步四项能力，输出成本为每秒0.10美元。
02Nano Banana 2 Lite的出图延迟约4秒，是原版Nano Banana 2（约20秒）的五分之一；1K分辨率图片成本约为0.034美元，是原版的一半。
03文章展示了三个串联使用两个模型的Demo APP：Anywhere（一键P图并生成视频）、Space Lift（房间装修方案转电影级漫游短片）、Omni product studio（产品图自动生成场景化广告视频）。
04谷歌主动列出了Gemini Omni Flash的当前局限：仅支持10秒视频生成、暂不支持音频参考上传、对视频参考素材的处理尚不成熟、场景切换和运镜时的人物一致性仍有局限。

反方 / 局限

— 文章作者承认谷歌在Coding能力上“一坨”，暗示其竞争优势并非全面领先，而是聚焦且依赖多模态与生态（如安卓、Stitch、Pixel、NotebookLM）的产品化能力。

Gemini Omni Flash Nano Banana 2 Lite Google Google I/O 2026 Veo 3.1 Fast Stitch NotebookLM Pixel

5 分钟 · 3 卡片 · 8 资料

读原文 →

视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

前置背景

未来推演

延伸追问