只给一份文档，Qwen3.7-Max 从 0 交付双端应用

7.7

深览指数

科技Bestblogs·通义实验室·昨天 17:28·AI 生成

只给一份文档，Qwen3.7-Max 从 0 交付双端应用

通义实验室与Efflora团队进行了一场技术验证：仅输入一份约15万字的产品调研文档（无设计稿、无代码），Qwen3.7-Max在隔离环境中自主完成规划、架构、编码与验证，约4小时交付了移动端和Web端两套可运行应用，核心界面与交互几近还原。文章核心贡献在于揭示了一套「约束闭环」工程方法论，包括分阶段注入约束、分层验收与确定性兜底。它对AI Agent开发者、AI编程工具实践者有直接参考价值，适合关注大模型工程化落地的深度读者阅读。

核心观点

▍质量不是模型一次「生成」出来的，是被闭环「收敛」出来的。在长程任务中，错误会沿链条累积，只有通过「分阶段注入约束 → 逐层验收 → 带错纠正」的可收敛流水线，才能将模型输出逐步逼向高质量。
▍模型的长程指令遵循稳定性是地基，工具层只是装修。Qwen3.7-Max在近30分钟、数百次调用中稳定遵循约束、按真实依赖排序、收敛式自我纠错的能力，是约束工程无法替代的模型核心能力。

01实验的初始输入是一份约15万字的产品调研文档，无设计稿、无代码，模型需在隔离环境中从零自主规划、架构、编码并交付可运行的双端应用。
02总耗时约4小时，交付了移动端和Web端两套可运行应用，核心界面与交互几近还原。
03实验将模糊的审美要求转化为基于像素坐标的「布局硬约束」：从真机界面dump出元素的精确边界框（bounds），自动换算成「网格/列表」、「列数」、「通栏头卡」等可逐条对照的事实清单。
04实验采用三层判定机制（编排层、产物层、协议层）客观判断Agent的执行成败，实现自动判定闭环。
05实验发现，多层模糊的质量校验（如语义相似度匹配）会导致模型花精力「哄骗」校验器，删除模糊规则并替换为可被字面匹配的硬规则后，产出反而更稳定。

反方 / 局限

— 文章坦言，该方法的成功高度依赖Qwen3.7-Max本身的长程指令遵循稳定性，若模型地基不稳，工具层的约束闭环工程难以弥补。这意味着当前发现的可迁移性限于具备类似核心能力的模型。
— 实验设定较为理想：输入是结构严谨的15万字产品文档，而非真实场景中常见的零散需求、复杂利益相关者或持续变化的需求。真实项目中的模糊与动荡，此方法未必能等比例复现。
— 「布局硬约束」方法依赖真机界面的精确边界框数据，这在已有竞品或原型可参考时有效。对于真正从零定义UI的首创产品，设计师的审美意图无法通过现成的坐标数据来约束。

Qwen3.7-Max通义实验室Efflora约束闭环布局硬约束Agent边界框(bounds)

3 分钟 · 3 卡片 · 5 资料

读原文 →

只给一份文档，Qwen3.7-Max 从 0 交付双端应用

前置背景

平行视角

延伸追问