8.3
深览指数
科技腾讯新闻·新智元··AI 生成

OpenAI塌房!Scaling law原作曝bug,万亿算力全白烧

OpenAI前研究员Diogo Almeida发文揭露,其2020年参与合著的Scaling Law原始论文存在致命bug:固定所有模型相同的训练token数(约130B),且使用余弦学习率衰减人为制造性能饱和假象,导致业界误以为「堆参数优于堆数据」。后续DeepMind的Chinchilla论文虽修正了参数与数据的比例,但其自身拟合也存在bug。文章进一步指出,当前的Scaling Law本质上是「英语Scaling Law」,因英语形态贫乏,在法语等形态丰富语言上,同等算力达到同等语法能力的效率可高50-100倍。本文适合关注AI产业投资方向、算力效率、以及大模型底层假设的技术管理者与研究者阅读。原文 ↗

核心观点
  • OpenAI 2020年Scaling Law原始论文存在一个bug:对所有模型(从几十M到上百B参数)使用了固定数量的训练token(约130B)和相同的学习率衰减策略,这导致大模型被严重欠训练,结论「堆参数优于堆数据」是错误的。
  • 当前的「Scaling Law」本质上是「英语Scaling Law」——英语是一种形态贫乏的语言,依赖大量数据分布规律,因此基于英语的scaling规律并不能代表其他语言,目前所有算力配比方案都基于一种最「吃数据」、最低效的语言制定。
  1. 01OpenAI为所有模型使用固定约130B tokens训练,Chinchilla论文曾一针见血指出这点:他们对所有模型使用了「固定的训练Token数和学习率调度方案」。
  2. 02OpenAI论文使用余弦学习率衰减(Cosine Decay),学习率在训练接近终点时被摁到零,人为制造了模型「已经饱和」的假象。作者虽然在论文中声称结果「基本不受学习率曲线影响」,但这仅适用于固定token上限下的有限场景,不适用于数据无限的解释。
  3. 032022年DeepMind的Chinchilla论文证实模型和数据应同等重要地放大,约每个参数配20个token;其700亿参数模型(喂1.4万亿token)以不到GPT-3一半的体量、四倍数据,全面反超2800亿参数但仅喂3000亿token的Gopher。
  4. 042024年Besiroglu等人复现Chinchilla时发现其自身拟合也存在bug:优化器中loss尺度设得过高,Huber损失按样本平均而非求和,导致拟合过早终止。
  5. 05研究者Adam Zachary Wasserman的实验表明:使用同样架构和算力,法语模型达到某种语法能力的效率比英语模型高出50到100倍,原因是英语形态贫乏,需要模型在海量数据中猜词义,而法语等形态丰富或结构严密的语言词汇本身带有明确信息。
反方 / 局限
  • 文章未提及OpenAI内部对这一bug是否早有察觉以及后续是否进行了内部修正,且曝光者Diogo Almeida本人当时也未能识别此bug,暗示其隐蔽性极强。
  • Chinchilla论文自身也有bug,说明即使方向修正,scaling law的经验拟合本质仍可能引入新的偏差,其「正确性」也是相对的。
  • 「英语Scaling Law」的观点目前来自单一研究者的反直觉实验,尚未被更大规模的跨语言验证或开源复现所支撑,其普适性仍有待检验。
10 分钟 · 3 卡片 · 7 资料
读原文 →

前置背景

平行视角

延伸追问