为什么 AI 终于开始“边做边看？”从 SpatialClaw 看 Agent 设计的下一个十年

8.6

深览指数

科技人人都是产品经理·枝酒·4小时前·AI 生成

为什么 AI 终于开始“边做边看？”从 SpatialClaw 看 Agent 设计的下一个十年

英伟达SpatialClaw通过持久化Python内核，让VLM在推理时边写代码边验证结果，以59.9%准确率刷新空间推理基准。本文核心贡献是揭示了AI交互设计的致命盲区：工具间无法自由对话限制了模型潜力。作者认为瓶颈已从模型能力转向界面质量，'代码即行动界面'是Agent设计的下一个范式。这篇文章适合AI产品经理、技术决策者、Agent设计从业者阅读，它提供了可直接落地的设计原则，而非抽象理论。原文 ↗原文 ↗

核心观点

▍SpatialClaw的核心突破不是更大的模型或更多数据，而是将'持久化Python内核'作为VLM的行动界面，让模型在推理过程中能边写代码、边看结果、边调整，实现从'单次输出'到'迭代验证'的范式转变。
▍AI在空间推理上的瓶颈已经从'模型能力'转移到了'模型与世界交互的界面质量'，未来Agent产品的差异化战场不是选哪个模型，而是设计怎样的行动空间。

01SpatialClaw在20个空间推理benchmark上平均准确率达59.9%，比此前最强智能体SpaceTools（48.7%）高出11.2个百分点，且跨6个VLM骨架（26B-397B，含Qwen3.5/3.6与Gemma4家族）稳定提升，同一套配置未做任何适配。
02消融实验显示：去掉所有感知工具（SAM 3和Depth Anything 3），仅保留空持久kernel+Numpy/SciPy，模型准确率仍比裸VLM高2.7个百分点（51.4% vs 48.7%），证明'纯界面收益'存在。
0352.2%的胜场归因于'代码组合'（多工具输出串联使用），19.5%归因于'控制流'（if/else分支、for循环），两项合计超70%，说明工具间自由组合能力是关键。
04与结构化工具调用方案（如SpaceTools）的对比显示，其局限不是工具不够强，而是工具输出被锁在各自JSON回包里，模型无法将分割结果与深度图放在同一坐标系计算。
05SpatialClaw是training-free方案，6个模型骨架使用完全相同的system prompt、工具集和超参数，无需微调或适配，降低了从论文到产品落地的鸿沟。
06误差来源分析显示，主要瓶颈是'几何推理错误'（21%），即模型知道该算什么，但在翻译成代码过程中出偏差，而非模型'不知道答案'。
07该趋势并非孤例：GCA（2025.12）主张引入几何形式约束规划，Think3D（2026.6）主张让模型以3D空间方式思考，三篇论文从不同路径指向同一方向——'看'与'做'之间的连接环节。

反方 / 局限

— SpatialClaw目前是非商用许可，研究验证可用，但落进商业产品需先解决授权问题，这可能是企业采用的实际障碍。
— 59.9%的准确率在许多实用场景下仍不够高，瓶颈已转移但并未消失——从模型能力转移到界面质量后，几何推理错误（21%）和感知工具自身问题（VLM幻觉、SAM 3分错区域等）仍是尚未解决的核心障碍。

SpatialClaw英伟达持久化Python内核VLMSpaceToolsSAM 3Depth Anything 3GCAThink3DMCP协议Qwen3.5/3.6Gemma 4

13 分钟 · 4 卡片 · 10 资料

读原文 →

为什么 AI 终于开始“边做边看？”从 SpatialClaw 看 Agent 设计的下一个十年

前置背景

平行视角

未来推演

延伸追问