6.6
深览指数
科技量子位··AI 生成

OpenSquilla 发布 0.4.0:AI 写代码首次能“自我验证”

开源 AI Agent 项目 OpenSquilla 发布 0.4.0 版本,核心更新是为 AI 编码引入“自我验证”机制:AI 在交回结果前,必须先通过自己编写的测试来证明“改对了”,而非仅给出口头交付。其做法是构建一条独立的红绿回归证据链,包括先写一个注定失败的测试、修复功能让其通过、再运行原有回归测试,三关全过才算完成。作者认为,这标志着行业评判 AI 编码的标准正从“能写”转向“能自证”,并试图解决 AI 编码难以无人值守、规模化进入生产环境的信任瓶颈。本文适合关注 AI 工程化落地、Agent 系统评测与可靠性方向的读者。原文 ↗

核心观点
  • OpenSquilla 0.4.0 引入的“自我验证”机制,核心是将 AI 编码的评判标准从“它声称改对了”推向“它能否自证改对了”,旨在解决 AI 编码难以规模化进入生产环境的信任瓶颈。
  1. 01自我验证的具体实现是一条独立的“红绿回归证据链”:先写一个注定失败的测试以证明它能抓住 bug,再修复功能让测试由红转绿,最后跑完整项目测试确认没有回归问题。
  2. 02配套有默认的自动修复闭环(不通过就自动重改)和隔离施工(只在隔离副本里改动,验收合格后才落回源码)。
  3. 03在官方演示中,Coding 模式为 Andrej Karpathy 的 micrograd 库新增了梯度计算功能,与 PyTorch 在同一个任务上比对,前向值与每一个梯度的小数点后 10 位完全一致。
  4. 04OpenSquilla 通过智能路由等技术,声称常规场景综合成本可下降约 60-80%,相比 OpenRouter 路由精度高 4.4 个百分点、成本低约 75%。
  5. 05OpenSquilla 上线数周内 GitHub star 增至数千量级,公司成立仅数月即完成首轮融资。
4 分钟 · 5 卡片 · 10 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问