科技虎嗅·心智观察所©··AI 生成
AI的一大重要瓶颈,被一家初创公司解决了
Transformer模型的注意力机制计算量随文本长度呈平方增长,导致长上下文处理成为瓶颈。初创公司Subquadratic推出了SubQ模型,其核心是动态稀疏注意力架构SSA,声称将计算复杂度从O(n²)降至O(n log n),并在第三方测试中,以8美元的成本处理了128K上下文(竞品需2600美元)。文章详细拆解了Transformer原理与SubQ的优化逻辑,但也指出其复用Qwen模型参数、未大规模开放公测的争议。适合关注AI底层架构、模型效率与Scaling Law走向的技术从业者阅读。原文 ↗原文 ↗
核心观点
- ▍Transformer模型处理长文本时,其注意力机制的计算量随词数呈平方级增长,这是当前大语言模型上下文窗口受限的核心瓶颈。
- ▍Subquadratic公司的SubQ模型通过名为SSA的动态稀疏注意力架构,有望打破这一瓶颈,将计算复杂度从O(n²)降至O(n log n)。
- 01主流商用模型(如GPT-4)的上下文窗口多数卡在128K到200K Token之间,处理百万级Token时,推理成本可达几十至上百美元,时长需几分钟。
- 02文章详细解释了Transformer注意力层的工作原理:每个Token生成Q、K、V三张身份牌,通过Q与K的点积计算注意力权重,再对V进行加权求和。
- 03SubQ的SSA架构不依赖固定规则(如只计算相邻Token),而是通过一个经过训练的智能筛选器,动态判断哪些词间关系真正重要,只计算这些组合。
- 04第三方评估显示,SubQ在LiveCodeBench编程测试中得分89.7%,在600万和1200万Token的“大海捞针”测试中准确率达98%,速度比一种早期稀疏注意力模型快56倍。
- 05成本对比:在RULER 128测试中,处理一次上下文,Anthropic的Opus 4.6花费2600美元,而SubQ仅需8美元。
反方 / 局限
- — 研究者质疑SubQ并非从头训练,而是复用了中国开源模型Qwen的参数,因此第三方测试结果不能完全证明SSA架构的优越性。
- — SubQ目前尚未大规模开放公测,其实际表现和通用性有待进一步验证。
- — 文章未提及OpenAI、Google等巨头是否已在内部掌握了类似方案,SubQ的“变革”前景存在不确定性。
11 分钟 · 5 卡片 · 15 资料
读原文 →概念锚点
前置背景
平行视角
未来推演
延伸追问