8.4
深览指数
科技Bestblogs··AI 生成
BestBlogs.dev Issue #100 Special: Two Years of AI, Signal...
这是一期关于人工智能编程与智能体发展的深度综述,汇集了Anthropic、OpenAI、Google、DeepSeek等前沿实验室在2025-2026年间的关键模型发布与架构思考。文章核心结论是:AI编程正从“补全代码”转向“自主交付”,以Claude Code、Codex、Devin为代表的智能体已能处理数小时到数天的复杂工程任务,而上下文工程(Context Engineering)而非提示工程(Prompt Engineering)成为决定成败的关键。作者整合了自Claude Opus 4到GPT-5 Codex、从MCP协议到多智能体系统的完整技术链条,适合正在将AI智能体集成到实际开发工作流中的工程师和团队决策者阅读,以建立对当前AI编程能力上限与工程落点的真实判断。原文 ↗
核心观点
- ▍AI编程已从代码补全(Copilot时代)演进到自主交付(Agent时代),Claude Code、OpenAI Codex等工具能在数小时内独立完成跨存储库的复杂工程任务,而非仅生成代码片段。
- ▍上下文工程(Context Engineering)正在取代提示工程(Prompt Engineering)成为构建可靠AI智能体的核心技能——关键在于如何管理、压缩、隔离上下文,而不是如何写提示词。
- 01Anthropic的Claude Opus 4在SWE-bench上达到72.5%,在Terminal-bench上达到43.2%,并支持跨数小时任务的扩展思考(extended thinking)。
- 02OpenAI内部Codex采用率已达92%,使用Codex的工程师比不使用的多产出70%的合并PR。
- 03Stripe使用Claude Fable 5在一天内完成了5000万行Ruby代码的全量迁移,而人工团队需要两个月。
- 04DeepSeek-V3以671B参数、37B活跃参数的MoE架构,在开放模型上击败Qwen2.5-72B和Llama-3.1-405B,与GPT-4o和Claude-3.5-Sonnet水平相当,且开源原生FP8权重。
- 05Cursor的Dynamic Context Discovery机制通过让智能体按需读取文件,替代传统静态上下文注入,在特定案例中节省46.9%的Token消耗。
- 06LangChain提出可靠智能体系统的关键框架:将上下文工程拆解为写(write)、选(select)、压缩(compress)、隔离(isolate)四个策略。
- 07腾讯工程师实践表明,通过结构化约束和MCP工具集成,AI代码修改准确率可从50%提升至92%。
- 08Block公司使用开源通用智能体Goose(基于Anthropic的MCP),使AI优先的工程团队每周节省8-10小时,全公司节省20-25%的时间。
反方 / 局限
- — 尽管前端模型能力大幅提升,提示注入(prompt injection)仍是未解决的安全挑战,即便较新模型有所改善。
- — 多智能体系统的成本增长与可靠性问题并存:Token消耗是Agent性能的关键驱动力,但成本也同比例上升,调试、部署和同步有状态Agent仍是工程痛点。
Claude Opus 4Claude CodeOpenAI CodexGPT-5 CodexContext EngineeringMCP (Model Context Protocol)SWE-benchLangChainCursorDeepSeek-V3AnthropicOpenAIGoogle DeepMindStripeSam AltmanDario AmodeiAndrej KarpathyAgent LoopVibe Engineering
131 分钟 · 4 卡片 · 12 资料
读原文 →