OpenAI塌房！Scaling law原作曝bug，万亿算力全白烧

8.3

深览指数

科技腾讯新闻·新智元·5小时前·AI 生成

OpenAI塌房！Scaling law原作曝bug，万亿算力全白烧

OpenAI前研究员Diogo Almeida发文揭露，其2020年参与合著的Scaling Law原始论文存在致命bug：固定所有模型相同的训练token数（约130B），且使用余弦学习率衰减人为制造性能饱和假象，导致业界误以为「堆参数优于堆数据」。后续DeepMind的Chinchilla论文虽修正了参数与数据的比例，但其自身拟合也存在bug。文章进一步指出，当前的Scaling Law本质上是「英语Scaling Law」，因英语形态贫乏，在法语等形态丰富语言上，同等算力达到同等语法能力的效率可高50-100倍。本文适合关注AI产业投资方向、算力效率、以及大模型底层假设的技术管理者与研究者阅读。原文 ↗原文 ↗

核心观点

▍OpenAI 2020年Scaling Law原始论文存在一个bug：对所有模型（从几十M到上百B参数）使用了固定数量的训练token（约130B）和相同的学习率衰减策略，这导致大模型被严重欠训练，结论「堆参数优于堆数据」是错误的。
▍当前的「Scaling Law」本质上是「英语Scaling Law」——英语是一种形态贫乏的语言，依赖大量数据分布规律，因此基于英语的scaling规律并不能代表其他语言，目前所有算力配比方案都基于一种最「吃数据」、最低效的语言制定。

01OpenAI为所有模型使用固定约130B tokens训练，Chinchilla论文曾一针见血指出这点：他们对所有模型使用了「固定的训练Token数和学习率调度方案」。
02OpenAI论文使用余弦学习率衰减（Cosine Decay），学习率在训练接近终点时被摁到零，人为制造了模型「已经饱和」的假象。作者虽然在论文中声称结果「基本不受学习率曲线影响」，但这仅适用于固定token上限下的有限场景，不适用于数据无限的解释。
032022年DeepMind的Chinchilla论文证实模型和数据应同等重要地放大，约每个参数配20个token；其700亿参数模型（喂1.4万亿token）以不到GPT-3一半的体量、四倍数据，全面反超2800亿参数但仅喂3000亿token的Gopher。
042024年Besiroglu等人复现Chinchilla时发现其自身拟合也存在bug：优化器中loss尺度设得过高，Huber损失按样本平均而非求和，导致拟合过早终止。
05研究者Adam Zachary Wasserman的实验表明：使用同样架构和算力，法语模型达到某种语法能力的效率比英语模型高出50到100倍，原因是英语形态贫乏，需要模型在海量数据中猜词义，而法语等形态丰富或结构严密的语言词汇本身带有明确信息。

反方 / 局限

— 文章未提及OpenAI内部对这一bug是否早有察觉以及后续是否进行了内部修正，且曝光者Diogo Almeida本人当时也未能识别此bug，暗示其隐蔽性极强。
— Chinchilla论文自身也有bug，说明即使方向修正，scaling law的经验拟合本质仍可能引入新的偏差，其「正确性」也是相对的。
— 「英语Scaling Law」的观点目前来自单一研究者的反直觉实验，尚未被更大规模的跨语言验证或开源复现所支撑，其普适性仍有待检验。

Diogo Almeida Sander Dieleman Adam Zachary Wasserman Besiroglu OpenAI DeepMind Scaling Law Chinchilla GPT-3 Gopher 余弦学习率衰减 AGI

10 分钟 · 3 卡片 · 7 资料

读原文 →

OpenAI塌房！Scaling law原作曝bug，万亿算力全白烧

前置背景

平行视角

延伸追问