8.6
深览指数
科技微博·机器之心Pro··AI 生成

刚刚,翁荔博客上新:谨慎对待Scaling Law

翁荔(Lilian Weng)在其博客Lil'Log上发表了关于Scaling Law的深度文章。核心结论有两点:一是经典Scaling Law(Kaplan vs Chinchilla)存在分歧,原因是实验规模、拟合细节和计算最优分配的不同;二是当高质量数据受限时,重复数据会改变Scaling Law的形态,需要新的模型来指导计算资源分配。文章作者是OpenAI前安全研究负责人、Thinking Machines Lab联合创始人,对AI领域从业者和研究者具有极高参考价值。原文 ↗

核心观点
  • Scaling Law实践中的拟合对流程选择(如参数计算、损失精度、拟合区域)异常敏感,细微差异可导致外推结果大相径庭,并解释了Kaplan与Chinchilla分歧的根源。
  • 当高质量数据受限,必须重复使用数据时,经典Scaling Law失效,需要引入显式的过拟合惩罚项来建模,且模型规模越大对重复数据越敏感。
  1. 01Kaplan等人(2020)实验模型规模7.68亿到15亿参数,数据2200万到230亿token,得出计算最优分配建议是模型规模增长应快于数据规模(10倍算力→5.5倍参数量+1.8倍token)。
  2. 02Chinchilla论文(Hoffmann等人,2022)用三种方法(固定模型规模扫token、IsoFLOP抛物线、参数化拟合)扫描400多个模型(7千万-160亿参数,50亿-5000亿token),结论相反:模型规模和数据应同步增长。
  3. 03Chinchilla论文以相同计算预算训练了70亿参数、1.4万亿token的Chinchilla,全面击败了2800亿参数、3000亿token的Gopher。
  4. 04Besiroglu等人(2024)复现发现Chinchilla方法3存在三个问题:L-BFGS-B优化器因损失求平均(非求和)过早终止、参数四舍五入到2位精度导致偏差被放大。
  5. 05Lovelace等人(2026)通过训练约300个模型(1千5百万-10亿参数,5千万-60亿去重token),提出过拟合惩罚项正比于容量比(参数量/去重token量)和重复轮次。
  6. 06强烈的权重衰减能减轻数据重复带来的过拟合惩罚(Lovelace等人,2026案例研究)。
  7. 07幂律现象的一种假说(Michaud等人2023,Brill 2024):知识以离散块学习,技能频率分布遵循幂律,模型先学常见后学罕见技能。
反方 / 局限
  • 所有数据受限的Scaling Law模型(Muennighoff、Lovelace)均为经验性曲线拟合,缺乏理论支持,不清楚为何采用特定形式及自由参数。
  • Hernandez等人(2022)关于重复数据影响的研究建立在受控实验室环境,真实世界重复情况更复杂(语义重复、不同程度重复),结论可能无法直接泛化。
  • 早期工作的理论基础(如VC维度)在现代深度学习中被认为过于粗糙,经验性幂律比理论最坏情况边界更清晰实用,说明当前领域理论落后于实践。
22 分钟 · 4 卡片 · 5 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问