科技 量子位 · 1小时前 · AI 生成
OpenSquilla 发布 0.4.0:AI 写代码首次能“自我验证” 开源 AI Agent 项目 OpenSquilla 发布 0.4.0 版本,核心更新是为 AI 编码引入“自我验证”机制:AI 在交回结果前,必须先通过自己编写的测试来证明“改对了”,而非仅给出口头交付。其做法是构建一条独立的红绿回归证据链,包括先写一个注定失败的测试、修复功能让其通过、再运行原有回归测试,三关全过才算完成。作者认为,这标志着行业评判 AI 编码的标准正从“能写”转向“能自证”,并试图解决 AI 编码难以无人值守、规模化进入生产环境的信任瓶颈。本文适合关注 AI 工程化落地、Agent 系统评测与可靠性方向的读者。原文 ↗ 原文 ↗
核心观点
▍ OpenSquilla 0.4.0 引入的“自我验证”机制,核心是将 AI 编码的评判标准从“它声称改对了”推向“它能否自证改对了”,旨在解决 AI 编码难以规模化进入生产环境的信任瓶颈。 01 自我验证的具体实现是一条独立的“红绿回归证据链”:先写一个注定失败的测试以证明它能抓住 bug,再修复功能让测试由红转绿,最后跑完整项目测试确认没有回归问题。 02 配套有默认的自动修复闭环(不通过就自动重改)和隔离施工(只在隔离副本里改动,验收合格后才落回源码)。 03 在官方演示中,Coding 模式为 Andrej Karpathy 的 micrograd 库新增了梯度计算功能,与 PyTorch 在同一个任务上比对,前向值与每一个梯度的小数点后 10 位完全一致。 04 OpenSquilla 通过智能路由等技术,声称常规场景综合成本可下降约 60-80%,相比 OpenRouter 路由精度高 4.4 个百分点、成本低约 75%。 05 OpenSquilla 上线数周内 GitHub star 增至数千量级,公司成立仅数月即完成首轮融资。
前置背景 AI编码信任赤字有多深
OpenSquilla自我验证机制瞄准的核心痛点,是2026年软件工程最拧巴的现实:72%的开发者每天用AI编码工具,42%的代码由AI生成,但96%的开发者无法完全信任AI生成的代码——安全漏洞、技术债、边界case、依赖陷阱让企业不敢让AI代码无人值守上线。Sonar报告将此称为「信任赤字」,而OpenSquilla的"红绿回归证据链"正是给AI编码补上"校验与签名"环节的尝试。
▸ 1 条关联资料
▼
技术原理 AI自证改对了的三关流程
OpenSquilla 0.4.0的自我验证拆成三个硬关卡:先让AI写一个注定失败的测试——证明它真能抓住当前bug;再把功能修好,让测试由红转绿;最后跑一遍项目原有回归测试,确认没有弄坏别处。三关全过才算交付,任一不过自动打回重改,且所有改动只在隔离副本里进行、验收才落回源码。这比传统TDD多了一层——不是人在写测试,是AI自己构建一条可复核的"红绿回归证据链"。
▸ 2 条关联资料
▼
平行视角 测试能自证,但谁证明测试是对的
OpenSquilla让AI自我验证,但SWE-bench Verified的前车之鉴提醒:测试本身也会骗人。OpenAI发现该基准约27.6%的难题中,至少59.4%存在测试设计缺陷——功能上正确的解法被误判为错误。AI自测面临同一困境:生成的测试用例可能覆盖了错误边界、漏了关键分支、或者误把正确实现判失败。两方阵营都在推进——AI编码派推自验证,测试工程派指出「测试自身的可靠性」才是真正未解决的开放问题。
▸ 2 条关联资料
▼
未来推演 自愈Agent的下一站
OpenSquilla的自我验证只是第一步。LangChain已在实践自愈式部署管道:Agent部署后自动检测回归、自动归因到具体代码行、自动打开PR修复,全程无需人工介入直到Review阶段。当下能看到的关键变量是:coding Agent从「一次性修bug」转向「持续运行+闭环自愈」。拐点不在模型能力提升,而在验证/回滚/审计机制是否能标准化——华为、阿里云已在Agent管理层面布局,企业级信任链条的工程化才是瓶颈。
▸ 3 条关联资料
▼
延伸追问 AI自测通过,你敢信吗
OpenSquilla让AI自己写测试、自己跑、自己验收通过——但这套自闭环的证据链,本质上依赖Agent生成的测试本身的质量。测试覆盖了正确路径,但能覆盖时序竞态、数据一致性和业务暗坑吗?有测试工程师发现,当AI测试覆盖率冲到99.8%,反而丢失了对「未知的未知」的警觉——0.2%的盲区在生产环境引发了分布式事务裂痕。真正的追问是:AI自我验证到底是信任的起点,还是一种新的幻觉?
▸ 2 条关联资料
▼