日本公司发布 Fable 同级新模型：Fugu Ultra

7.4

深览指数

科技腾讯新闻·AGIHunt·4小时前·AI 生成

日本公司发布 Fable 同级新模型：Fugu Ultra

日本 AI 公司 Sakana AI 发布 Fugu/Fugu Ultra 模型，其核心思路并非传统的大规模单体模型，而是训练一个专门调度其他模型的“元模型”。在多项基准测试中，Fugu Ultra 性能对标顶级模型 Opus 4.8 等，但价格仅为三分之一。文章详细解释了其依赖进化算法和强化学习训练的多 Agent 编排技术（TRINITY 和 Conductor），并展示了在自动化研究、古籍识别等六个领域的实战案例，最后强调了其架构在规避出口管制和供应商锁定风险上的优势。适合关注 AI 技术架构演进、模型竞争格局和多 Agent 系统应用的技术决策者和开发者阅读。原文 ↗原文 ↗

核心观点

▍Sakana AI 的 Fugu 系列模型标志着一种新范式：不再追求单体模型的参数规模，而是训练一个“模型调度器”，通过动态编排多个专业 Agent 来达成高性能，同时在成本和合规风险上获得优势。

01Fugu Ultra 在 SWE Bench Pro 上得分 73.7，超过 Opus 4.8 的 69.2；在 GPQA-D（研究生级别科学问答）上达到 95.5，是目前公开可用模型中的最高分。
02其协调策略来源于两篇 ICLR 2026 论文：TRINITY 使用进化算法优化 Thinker/Worker/Verifier 角色分配；Conductor 通过强化学习训练出高效的、非直觉的 Agent 通信模式。
03在实战案例中，Fugu Ultra 在 AutoResearch 任务自主运行 123 次实验获得最优结果；在魔方求解中，其生成的代码成功解出全部 300 个测试魔方，且解法步数从未输过。
04Fugu Ultra 价格为输入 $5/1M tokens，输出 $30/1M tokens，约为 Opus 4.8 输入价格 ($15) 的三分之一，输出价格 ($75) 的一半不到。
05文章强调 Fugu 架构无出口管制风险，其编排系统的弹性使得单一底层模型受限时，可以切换替代方案，避免性能断崖式下跌。

反方 / 局限

— 文章承认，对于简单、干净的单次 Prompt 任务，用户可能仍会选择直接的 Fable 5 或 Mythos 模型，Fugu 编排系统的优势主要体现在复杂、多步骤的任务中。
— Fugu Ultra 的 Agent 池包含的具体底层模型属于专有技术，Sakana 并未对外公开，这引发了对其透明度和可审计性的潜在疑问。
— 虽然文章展示了多项 Benchmark 领先，但具体应用场景（如日文古籍识别）的成功可能部分归因于公司自身的日本背景与数据优势，其通用性及在其他领域复制该成功的能力有待市场验证。

Sakana AIFugu UltraFable 5Mythos PreviewOpus 4.8TRINITYConductor多Agent架构进化算法强化学习

9 分钟 · 4 卡片 · 9 资料

读原文 →

日本公司发布 Fable 同级新模型：Fugu Ultra

前置背景

平行视角

未来推演

延伸追问