7.2
深览指数
科技智东西·毕 伟豪··AI 生成

又一大模型发布!号称比肩Fable 5和Mythos

日本AI独角兽Sakana AI发布Fugu系列编排器模型,不直接回答问题,而是通过调度多个专长模型(如GPT、Claude、Gemini)形成“集体智能”,在工程、推理等基准上接近甚至超越Fable 5和Mythos Preview。文章详细介绍了Fugu的四大机制(问题识别、模型选择、工作流设计、反馈优化)、技术路线(基于Trinity和Conductor研究)及“AI主权”的地缘政治动机,并指出该路线将AI竞争从单一模型能力引向系统组织能力。适合对AI技术前沿、模型架构演进、以及多模型协作方向有深度兴趣的技术从业者和研究者。原文 ↗

核心观点
  • AI的下一阶段不是更大更强的单一模型,而是更会协作的模型系统。编排能力(调度、协调、验证、综合)正成为一种独立的竞争力。
  • Fugu系列的核心定位不是替代GPT/Claude/Gemini,而是将这些模型的能力组合起来,通过智能调度实现超越单一顶尖模型的效果,同时规避单一供应商绑定风险(AI主权蓝图)。
  1. 01Fugu系列在覆盖编程、推理、科学、Agent能力的八个基准测试中,有三项超越了Mythos Preview和Fable 5,其他项目接近顶尖水平。
  2. 02Fugu的技术路线基于此前团队在ICLR 2026上发表的论文Trinity和Conductor,涉及学习模型编排的研究。
  3. 03Fugu的四大基础机制:识别问题类型、选择合适的worker模型、设计Agent工作流、根据反馈(进化算法+强化学习)优化编排策略。
  4. 04在Terminal Bench测试中,Fugu会自适应调用该测试中表现最好的GPT-5.5;在GPQADiamond测试中则核心调度Gemini-3.1-Pro,证明其能识别并利用不同模型的相对优势。
  5. 05Fugu提供两个版本:Fugu(延迟优先,轻量选择机制)和Fugu-Ultra(质量优先,深度多Agent协作,适合高难度任务)。
  6. 06Fugu完全模块化,不访问worker模型权重,用户可根据成本、隐私、合规需求定制可用模型列表,新模型可直接加入worker池。
  7. 07在附录实验中,Fugu-Ultra成功解出全部300个魔方(一次性代码生成)、在盲棋测试中击败多款模型和Stockfish、在在线股票交易中获得更高平均收益。
反方 / 局限
  • 多模型编排会带来更高成本和延迟,尤其是Fugu-Ultra的深度协作模式,这对实际落地构成工程挑战。
  • 多模型系统的错误归因更复杂:一旦最终答案出错,很难分清是路由决策、worker模型输出还是综合过程出了问题,排查难度大。
  • 编排器模型本身也可能出现偏差,比如错误判断任务类型,或过度依赖某个特定模型,从而削弱整体表现。
12 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问