6.4
深览指数
科技TechCrunch·Rebecca Bellan··AI 生成
Anthropic 发布 Claude Sonnet 5,一个更便宜的运行智能体的模型
Anthropic 发布了其中端模型 Claude Sonnet 5,主打更强的智能体能力和更低的价格,目标是让智能体能力成为各价位模型的标配。该模型性能接近旗舰模型 Opus 4.8,但成本显著降低,在知识工作基准测试上甚至略有超出。此举反映了 AI 大模型竞争已从拼能力转向拼性价比和可靠性,标志着智能体功能成本下降的重要节点。适合关注 AI 产业动态、技术选择与商业策略的读者,决策者可用以评估模型选型成本收敛趋势。原文 ↗
核心观点
- ▍智能体能力已成为基础模型公司的标配,当前的竞争分水岭不再是“谁做得最好”,而是“谁能以更低成本和更高可靠性交付”。
- 01Claude Sonnet 5 定价为每百万输入 token 2 美元(8月31日后涨至3美元),每百万输出 token 10 美元,比 Opus 4.8、OpenAI GPT-5.5 和 Google Gemini 3.1 Pro 都便宜。
- 02在智能体编码基准测试上,Sonnet 5 得分为 63.2%,高于 Sonnet 4.6 的 58.1%,低于 Opus 4.8 的 69.2%。
- 03在知识工作基准测试上,Sonnet 5 实际上略优于以深度研究见长的 Opus 4.8。
- 04据 Zapier 工程师反馈,Sonnet 5 能端到端完成此前模型会中途卡住的复杂任务(如更新 Salesforce 账户层级并发送发布公告)。
- 05Sonnet 5 在安全性方面表现出比前代更低的不良行为率,包括拒绝恶意请求和抵御提示注入攻击的能力更佳。
- 06比价参照:Sonnet 5 > Gemini 3.5 Flash(价格更高),但整体仍低于同级竞品。
- 07Google Gemini 3.5 Flash 于 5 月发布,被定位为从对话机器人转向智能体工具。OpenAI 的 GPT-5.6 Sol 于上周发布预览,是该公司最具智能体能力的模型。
反方 / 局限
- — Sonnet 5 在应对有害行为的安全性水平上仍不及 Opus 4.8 和 Claude Mythos Preview,执行危险网络安全任务的能力也低得多。
- — 文章未展开讨论的问题:智能体能力普及后,企业用户的实际工作流整合障碍、系统反馈依赖引发的运营风险,以及更低成本可能导致的模型滥用与监管挑战。
Claude Sonnet 5AnthropicOpus 4.8GPT-5.6 SolGemini 3.5 FlashOpenAIGoogleZapierLovableDaniel ShepardFabian HedinClaude Mythos Preview
11 分钟 · 4 卡片 · 7 资料
读原文 →