从神经元到注意力：人工智能的80年暗涌（上篇）

7.7

深览指数

科技人人都是产品经理·yan·06-22 14:35·AI 生成

从神经元到注意力：人工智能的80年暗涌（上篇）

本文系统梳理了从1943年McCulloch-Pitts神经元模型到2017年Transformer架构的AI发展史，聚焦神经网络在两次AI寒冬中的沉浮与最终复兴。作者认为，AI的核心驱动力并非单一天才的灵光一现，而是三大理论基石（神经元计算、Hebb学习规则、Shannon信息论）逐步汇聚，并最终在2012年ImageNet竞赛中被'深度网络+大规模数据+GPU算力'这一公式引爆。文章对'预测即理解''规模化带来智能'等关键命题提供了清晰的历史论证。适合对AI史有基础认识、希望理解'为什么是Transformer'而非'Transformer怎么用'的读者。原文 ↗原文 ↗

核心观点

▍人工智能的发展史不是线性进步，而是三大理论基石（McCulloch-Pitts神经元模型、Hebb学习规则、Shannon信息论）在两次AI寒冬中潜伏，最终在2012年以'深度网络+大规模数据+GPU算力'公式引爆。核心观念：语言的可预测性（Shannon信息论）本质上是理解能力，这与GPT的'预测下一个词'训练目标一脉相承。
▍AI架构正在经历从'领域专用架构'到'通用架构（Transformer）'的收敛：Transformer的自注意力机制能够统一建模文本、图像、语音、序列，其并行计算特性使得规模化（scaling）成为可能，暗示'规模足够大时，智能可能涌现'。

011943年McCulloch-Pitts神经元模型证明了人工神经元组成的网络在计算能力上与图灵机等价，奠定了可计算的智能基础。但模型是静态的，无法学习。
021949年Hebb学习规则（'一起激活的神经元连接在一起'）为网络提供了自我调整的可能性，解决了学习机制问题。
031948年Shannon信息论揭示了自然语言的冗余性（约60-75%可预测），论证了'预测能力等同于理解能力'，为GPT的'预测下一个词'范式提供理论地基。
04Minsky和Papert 1969年的《Perceptrons》从数学上证明单层感知机无法处理异或问题，并推测多层网络也难以克服，直接导致第一次AI寒冬。
051980年Fukushima的Neocognitron受Hubel & Wiesel的'简单细胞→复杂细胞'层级结构启发，该架构是今日CNN的直接祖先。
062012年AlexNet用两块消费级GPU训练深度CNN，将ImageNet top-5错误率从25%左右断崖式降至15.3%，开启深度学习时代。
072017年Transformer引入自注意力机制，实现完全并行化序列处理，一步捕捉任意距离的关系，为大规模训练和统一架构奠定基础。

反方 / 局限

— 作者虽详述深度学习的成功，但暗示了其潜在局限：AlexNet等CNN本质上是'更大+更深'的工程扩展，而非理论突破；梯度消失问题虽被LSTM缓解，但深层的训练理论仍不完备。

44 分钟 · 5 卡片 · 14 资料

读原文 →

从神经元到注意力：人工智能的80年暗涌（上篇）

概念锚点

前置背景

平行视角

未来推演

延伸追问