6.9
深览指数
科技微博·量子位··AI 生成

视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒

谷歌发布了两个多模态模型:视频生成模型Gemini Omni Flash(每秒0.1美元,支持10秒视频的自然语言编辑)和图像生成模型Nano Banana 2 Lite(出图仅需4秒,成本约为初代Nano Banana的一半)。文章展示了将两者串联使用的“Workflow”,如电商素材自动生成。核心信息点是:谷歌在多模态领域有显著的产品化优势,但承认Coding能力是短板,且两款模型各有明确的现有限制(视频时长、人物一致性等)。适合对AI产品动态、多模态落地场景及成本敏感的技术决策者阅读。原文 ↗

核心观点
  • Google在多模态AI领域的产品化落地速度领先,尽管其Coding能力暂时落后,但多模态这张牌桌上Google可能是唯一能整合完整产品生态的玩家。
  1. 01Gemini Omni Flash已正式向开发者开放,具备对话式视频编辑、多模态参考、世界知识运用、文字与动作同步四项能力,输出成本为每秒0.10美元。
  2. 02Nano Banana 2 Lite的出图延迟约4秒,是原版Nano Banana 2(约20秒)的五分之一;1K分辨率图片成本约为0.034美元,是原版的一半。
  3. 03文章展示了三个串联使用两个模型的Demo APP:Anywhere(一键P图并生成视频)、Space Lift(房间装修方案转电影级漫游短片)、Omni product studio(产品图自动生成场景化广告视频)。
  4. 04谷歌主动列出了Gemini Omni Flash的当前局限:仅支持10秒视频生成、暂不支持音频参考上传、对视频参考素材的处理尚不成熟、场景切换和运镜时的人物一致性仍有局限。
反方 / 局限
  • 文章作者承认谷歌在Coding能力上“一坨”,暗示其竞争优势并非全面领先,而是聚焦且依赖多模态与生态(如安卓、Stitch、Pixel、NotebookLM)的产品化能力。
5 分钟 · 3 卡片 · 8 资料
读原文 →

前置背景

未来推演

延伸追问