7.4
深览指数
科技腾讯新闻·AGIHunt··AI 生成

日本公司发布 Fable 同级新模型:Fugu Ultra

日本 AI 公司 Sakana AI 发布 Fugu/Fugu Ultra 模型,其核心思路并非传统的大规模单体模型,而是训练一个专门调度其他模型的“元模型”。在多项基准测试中,Fugu Ultra 性能对标顶级模型 Opus 4.8 等,但价格仅为三分之一。文章详细解释了其依赖进化算法和强化学习训练的多 Agent 编排技术(TRINITY 和 Conductor),并展示了在自动化研究、古籍识别等六个领域的实战案例,最后强调了其架构在规避出口管制和供应商锁定风险上的优势。适合关注 AI 技术架构演进、模型竞争格局和多 Agent 系统应用的技术决策者和开发者阅读。原文 ↗

核心观点
  • Sakana AI 的 Fugu 系列模型标志着一种新范式:不再追求单体模型的参数规模,而是训练一个“模型调度器”,通过动态编排多个专业 Agent 来达成高性能,同时在成本和合规风险上获得优势。
  1. 01Fugu Ultra 在 SWE Bench Pro 上得分 73.7,超过 Opus 4.8 的 69.2;在 GPQA-D(研究生级别科学问答)上达到 95.5,是目前公开可用模型中的最高分。
  2. 02其协调策略来源于两篇 ICLR 2026 论文:TRINITY 使用进化算法优化 Thinker/Worker/Verifier 角色分配;Conductor 通过强化学习训练出高效的、非直觉的 Agent 通信模式。
  3. 03在实战案例中,Fugu Ultra 在 AutoResearch 任务自主运行 123 次实验获得最优结果;在魔方求解中,其生成的代码成功解出全部 300 个测试魔方,且解法步数从未输过。
  4. 04Fugu Ultra 价格为输入 $5/1M tokens,输出 $30/1M tokens,约为 Opus 4.8 输入价格 ($15) 的三分之一,输出价格 ($75) 的一半不到。
  5. 05文章强调 Fugu 架构无出口管制风险,其编排系统的弹性使得单一底层模型受限时,可以切换替代方案,避免性能断崖式下跌。
反方 / 局限
  • 文章承认,对于简单、干净的单次 Prompt 任务,用户可能仍会选择直接的 Fable 5 或 Mythos 模型,Fugu 编排系统的优势主要体现在复杂、多步骤的任务中。
  • Fugu Ultra 的 Agent 池包含的具体底层模型属于专有技术,Sakana 并未对外公开,这引发了对其透明度和可审计性的潜在疑问。
  • 虽然文章展示了多项 Benchmark 领先,但具体应用场景(如日文古籍识别)的成功可能部分归因于公司自身的日本背景与数据优势,其通用性及在其他领域复制该成功的能力有待市场验证。
Sakana AIFugu UltraFable 5Mythos PreviewOpus 4.8TRINITYConductor多Agent架构进化算法强化学习
9 分钟 · 4 卡片 · 9 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问