8.1
深览指数
科技微博·机器之心Pro··AI 生成

DeepMind:Transformer存在拓扑缺陷,思维链治标不治本

谷歌 DeepMind 一篇新论文指出,Transformer 架构存在根本性的状态追踪缺陷,其内部状态在深层更新后,浅层无法访问,导致推理时出现自相矛盾。思维链(CoT)本质上是一种将深层状态「打印」出来再读入的低效补丁,而非根本解决方案。论文主张回归循环机制,将隐式激活动态与注意力机制结合,以实现真正的长时状态维护。文章适合对 Transformer 底层原理及下一代架构方向感兴趣的读者,提供了具挑战性的技术视角。原文 ↗

核心观点
  • Transformer 架构存在结构性缺陷:它的状态追踪(State Tracking)能力有限,内部状态更新后,浅层网络无法访问,导致模型在需要持续记忆的推理任务中自相矛盾。
  • 思维链(CoT)并非根本性解决方案,它只是将深层状态「打印」为可见文本再重新读入,本质上是低效补丁,随着模型能力提升,计算成本和上下文窗口占用会指数级增长。
  1. 01论文用「猜数字」游戏展示缺陷:Gemini 3 Fast 在用户猜 70 时回答「更大」,与之前用户猜 60 时回答「更小」矛盾;Gemini 3 Thinking 在思考阶段明确写下数字 42,但在用户猜 42 时依然回答「更小」。
  2. 02在「bank」歧义测试中,模型第一轮正确判断「河岸」,第二轮被问 ATM 时却回答「银行旁都有 ATM」。论文通过 Patchscopes 工具发现,语义消歧发生在第 6 层,但第 1-5 层无法访问此结果,只能基于词频关联(银行→ATM)作出反应。
  3. 03论文将 Transformer 的信息处理比喻为「楼」:新输入将状态表示推向更高楼层,楼层有限,搬到顶后就无法再可靠追踪状态。思维链相当于把顶层信息「搬」到一楼重新开始。
  4. 04论文认为,真正能实现无限期状态追踪的是沿序列方向的循环,如 MAMBA、RWKV-7、DeltaNet 等状态空间模型(SSM)和线性注意力架构,DeltaNet 改进版在状态追踪上已超越标准 Transformer。
  5. 05论文提出了几个研究方向:在更粗粒度(如句子)上引入循环;利用残差连接降低循环训练成本;分阶段训练——先用标准前馈架构预训练,再微调引入循环。
  6. 06论文第一作者 Michael C. Mozer 是 RNN 领域资深研究者,1991 年提出处理多尺度时序结构的循环网络模型,其工作为 LSTM 诞生埋下伏笔。此次研究是将同一问题延展至 Transformer。
反方 / 局限
  • 论文承认,深度方向的循环(如 Looped Transformer、Universal Transformer)虽然能延缓状态被推向深层的过程,但并未根本解决状态表示随序列增长而被推至更深层的问题。
  • 当前主流的思维链方法虽然有效且被广泛采用,但论文并未提供明确的替代方案在同等规模下的实际效果对比,仅停留在理论分析和小规模实验层面。
  • 文章未讨论增加模型层数或改进注意力机制(如稀疏注意力)是否能在不引入循环的情况下缓解状态追踪问题,架构折中方案被忽略。
Michael C. MozerDeepMindTransformer思维链(Chain of Thought, CoT)状态追踪(State Tracking)Patchscopes循环神经网络(RNN)MAMBARWKV-7DeltaNetGemini 3Claude Fable 5
7 分钟 · 5 卡片 · 11 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问