6.0
深览指数
科技Bestblogs··AI 生成

BestBlogs.dev 第 99 期:寓言与神话

本期周报以 Anthropic 发布的 Claude Fable 5 和 Mythos 5 为中心,指出最强模型一边大幅降价、一边将更强版本锁进「受信任通道」,这标志着 AI 能力分发方式的转折。文章还梳理了当前 AI 领域的十大趋势:推理速度竞赛(DiffusionGemma、小米 MiMo)、AI 编程焦点从模型转向流程工程、企业级 Agent 部署后的维护才是重头戏,以及苹果 Siri 升级和 Kimi 用子 Agent 预测世界杯等消费级动向。适合希望快速掌握本周 AI 技术动态与生态演进的从业者。

核心观点
  • AI 能力分发方式正在经历转折:Anthropic 同时发布面向大众的便宜模型 Fable 5 和面向受信任伙伴的更强模型 Mythos 5,将最强的能力锁进「受信任通道」。
  • 当前 AI 编程的瓶颈正从模型能力转向流程工程,上下文管理和流程纪律成为新主战场。
  1. 01Claude Fable 5 几乎刷新所有基准测试,定价不到 Mythos Preview 的一半;在 Stripe 真实部署中,一天完成 5000 万行 Ruby 代码的全库迁移,相当于一个团队两个多月的工作量。
  2. 02DiffusionGemma 用扩散头并行生成 256 token 文本块,在单块 H100 上突破每秒 1000 token;小米 MiMo 与 TileRT 协同设计,让 1T 参数模型在通用 8 卡 GPU 上首次突破 1000 tokens/s。
  3. 03Salesforce 从 20,000 个企业级 Agent 部署中得出结论:90% 的工作量在上线之后,而非之前。
  4. 04阿里工程师用两个月 Harness 实战发现,AI Coding 瓶颈正从模型能力转向流程工程,三层加载架构把常驻上下文压到 8K 以内。
  5. 05Google DeepMind 的 Logan Kilpatrick 判断「模型会吞掉智能体脚手架」,外部脚手架正逐步进入原生模型系统。
  6. 06数据反驳失业叙事:代码编写量涨了 8 倍,但发布量只涨 30%,写代码从来不是软件工程的瓶颈。
  7. 07WWDC26 上 Siri 完成重大升级,拥有独立 App 形态,苹果还与 Google 共建下一代基础模型,但国行无缘首发。
  8. 08Kimi 用 300 个子 Agent 公开预测世界杯全部 104 场赛事,模型认为德国队的夺冠概率被市场低估。
  9. 09Anthropic 的 Claude Managed Agents 将「大脑」与「双手」解耦,托管、扩展、凭证隔离都由平台接管。
反方 / 局限
  • Simon Willison 对 Mythos 5 的实测结论是速度慢、价格贵,但能处理所有复杂任务(物有所值),暗示其高成本限制了普及。
Claude Fable 5Claude Mythos 5AnthropicDiffusionGemma小米 MiMoTileRTStripeSalesforceGoogle DeepMindWWDC26Kimi安克创新阳萌Tony Fadell
5 分钟 · 4 卡片 · 12 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问