8.6
深览指数
科技人人都是产品经理·枝酒··AI 生成
为什么 AI 终于开始“边做边看?”从 SpatialClaw 看 Agent 设计的下一个十年
英伟达SpatialClaw通过持久化Python内核,让VLM在推理时边写代码边验证结果,以59.9%准确率刷新空间推理基准。本文核心贡献是揭示了AI交互设计的致命盲区:工具间无法自由对话限制了模型潜力。作者认为瓶颈已从模型能力转向界面质量,'代码即行动界面'是Agent设计的下一个范式。这篇文章适合AI产品经理、技术决策者、Agent设计从业者阅读,它提供了可直接落地的设计原则,而非抽象理论。原文 ↗
核心观点
- ▍SpatialClaw的核心突破不是更大的模型或更多数据,而是将'持久化Python内核'作为VLM的行动界面,让模型在推理过程中能边写代码、边看结果、边调整,实现从'单次输出'到'迭代验证'的范式转变。
- ▍AI在空间推理上的瓶颈已经从'模型能力'转移到了'模型与世界交互的界面质量',未来Agent产品的差异化战场不是选哪个模型,而是设计怎样的行动空间。
- 01SpatialClaw在20个空间推理benchmark上平均准确率达59.9%,比此前最强智能体SpaceTools(48.7%)高出11.2个百分点,且跨6个VLM骨架(26B-397B,含Qwen3.5/3.6与Gemma4家族)稳定提升,同一套配置未做任何适配。
- 02消融实验显示:去掉所有感知工具(SAM 3和Depth Anything 3),仅保留空持久kernel+Numpy/SciPy,模型准确率仍比裸VLM高2.7个百分点(51.4% vs 48.7%),证明'纯界面收益'存在。
- 0352.2%的胜场归因于'代码组合'(多工具输出串联使用),19.5%归因于'控制流'(if/else分支、for循环),两项合计超70%,说明工具间自由组合能力是关键。
- 04与结构化工具调用方案(如SpaceTools)的对比显示,其局限不是工具不够强,而是工具输出被锁在各自JSON回包里,模型无法将分割结果与深度图放在同一坐标系计算。
- 05SpatialClaw是training-free方案,6个模型骨架使用完全相同的system prompt、工具集和超参数,无需微调或适配,降低了从论文到产品落地的鸿沟。
- 06误差来源分析显示,主要瓶颈是'几何推理错误'(21%),即模型知道该算什么,但在翻译成代码过程中出偏差,而非模型'不知道答案'。
- 07该趋势并非孤例:GCA(2025.12)主张引入几何形式约束规划,Think3D(2026.6)主张让模型以3D空间方式思考,三篇论文从不同路径指向同一方向——'看'与'做'之间的连接环节。
反方 / 局限
- — SpatialClaw目前是非商用许可,研究验证可用,但落进商业产品需先解决授权问题,这可能是企业采用的实际障碍。
- — 59.9%的准确率在许多实用场景下仍不够高,瓶颈已转移但并未消失——从模型能力转移到界面质量后,几何推理错误(21%)和感知工具自身问题(VLM幻觉、SAM 3分错区域等)仍是尚未解决的核心障碍。
SpatialClaw英伟达持久化Python内核VLMSpaceToolsSAM 3Depth Anything 3GCAThink3DMCP协议Qwen3.5/3.6Gemma 4
13 分钟 · 4 卡片 · 10 资料
读原文 →