DeepMind：Transformer存在拓扑缺陷，思维链治标不治本

8.1

深览指数

科技微博·机器之心Pro·昨天 18:34·AI 生成

DeepMind：Transformer存在拓扑缺陷，思维链治标不治本

谷歌 DeepMind 一篇新论文指出，Transformer 架构存在根本性的状态追踪缺陷，其内部状态在深层更新后，浅层无法访问，导致推理时出现自相矛盾。思维链（CoT）本质上是一种将深层状态「打印」出来再读入的低效补丁，而非根本解决方案。论文主张回归循环机制，将隐式激活动态与注意力机制结合，以实现真正的长时状态维护。文章适合对 Transformer 底层原理及下一代架构方向感兴趣的读者，提供了具挑战性的技术视角。原文 ↗原文 ↗

核心观点

▍Transformer 架构存在结构性缺陷：它的状态追踪（State Tracking）能力有限，内部状态更新后，浅层网络无法访问，导致模型在需要持续记忆的推理任务中自相矛盾。
▍思维链（CoT）并非根本性解决方案，它只是将深层状态「打印」为可见文本再重新读入，本质上是低效补丁，随着模型能力提升，计算成本和上下文窗口占用会指数级增长。

01论文用「猜数字」游戏展示缺陷：Gemini 3 Fast 在用户猜 70 时回答「更大」，与之前用户猜 60 时回答「更小」矛盾；Gemini 3 Thinking 在思考阶段明确写下数字 42，但在用户猜 42 时依然回答「更小」。
02在「bank」歧义测试中，模型第一轮正确判断「河岸」，第二轮被问 ATM 时却回答「银行旁都有 ATM」。论文通过 Patchscopes 工具发现，语义消歧发生在第 6 层，但第 1-5 层无法访问此结果，只能基于词频关联（银行→ATM）作出反应。
03论文将 Transformer 的信息处理比喻为「楼」：新输入将状态表示推向更高楼层，楼层有限，搬到顶后就无法再可靠追踪状态。思维链相当于把顶层信息「搬」到一楼重新开始。
04论文认为，真正能实现无限期状态追踪的是沿序列方向的循环，如 MAMBA、RWKV-7、DeltaNet 等状态空间模型（SSM）和线性注意力架构，DeltaNet 改进版在状态追踪上已超越标准 Transformer。
05论文提出了几个研究方向：在更粗粒度（如句子）上引入循环；利用残差连接降低循环训练成本；分阶段训练——先用标准前馈架构预训练，再微调引入循环。
06论文第一作者 Michael C. Mozer 是 RNN 领域资深研究者，1991 年提出处理多尺度时序结构的循环网络模型，其工作为 LSTM 诞生埋下伏笔。此次研究是将同一问题延展至 Transformer。

反方 / 局限

— 论文承认，深度方向的循环（如 Looped Transformer、Universal Transformer）虽然能延缓状态被推向深层的过程，但并未根本解决状态表示随序列增长而被推至更深层的问题。
— 当前主流的思维链方法虽然有效且被广泛采用，但论文并未提供明确的替代方案在同等规模下的实际效果对比，仅停留在理论分析和小规模实验层面。
— 文章未讨论增加模型层数或改进注意力机制（如稀疏注意力）是否能在不引入循环的情况下缓解状态追踪问题，架构折中方案被忽略。

Michael C. MozerDeepMindTransformer思维链（Chain of Thought, CoT）状态追踪（State Tracking）Patchscopes循环神经网络（RNN）MAMBARWKV-7DeltaNetGemini 3Claude Fable 5

7 分钟 · 5 卡片 · 11 资料

读原文 →

DeepMind：Transformer存在拓扑缺陷，思维链治标不治本

概念锚点

前置背景

平行视角

未来推演

延伸追问