刚刚，翁荔博客上新：谨慎对待Scaling Law

8.6

深览指数

科技微博·机器之心Pro·7小时前·AI 生成

刚刚，翁荔博客上新：谨慎对待Scaling Law

翁荔（Lilian Weng）在其博客Lil'Log上发表了关于Scaling Law的深度文章。核心结论有两点：一是经典Scaling Law（Kaplan vs Chinchilla）存在分歧，原因是实验规模、拟合细节和计算最优分配的不同；二是当高质量数据受限时，重复数据会改变Scaling Law的形态，需要新的模型来指导计算资源分配。文章作者是OpenAI前安全研究负责人、Thinking Machines Lab联合创始人，对AI领域从业者和研究者具有极高参考价值。原文 ↗原文 ↗

核心观点

▍Scaling Law实践中的拟合对流程选择（如参数计算、损失精度、拟合区域）异常敏感，细微差异可导致外推结果大相径庭，并解释了Kaplan与Chinchilla分歧的根源。
▍当高质量数据受限，必须重复使用数据时，经典Scaling Law失效，需要引入显式的过拟合惩罚项来建模，且模型规模越大对重复数据越敏感。

01Kaplan等人（2020）实验模型规模7.68亿到15亿参数，数据2200万到230亿token，得出计算最优分配建议是模型规模增长应快于数据规模（10倍算力→5.5倍参数量+1.8倍token）。
02Chinchilla论文（Hoffmann等人，2022）用三种方法（固定模型规模扫token、IsoFLOP抛物线、参数化拟合）扫描400多个模型（7千万-160亿参数，50亿-5000亿token），结论相反：模型规模和数据应同步增长。
03Chinchilla论文以相同计算预算训练了70亿参数、1.4万亿token的Chinchilla，全面击败了2800亿参数、3000亿token的Gopher。
04Besiroglu等人（2024）复现发现Chinchilla方法3存在三个问题：L-BFGS-B优化器因损失求平均（非求和）过早终止、参数四舍五入到2位精度导致偏差被放大。
05Lovelace等人（2026）通过训练约300个模型（1千5百万-10亿参数，5千万-60亿去重token），提出过拟合惩罚项正比于容量比（参数量/去重token量）和重复轮次。
06强烈的权重衰减能减轻数据重复带来的过拟合惩罚（Lovelace等人，2026案例研究）。
07幂律现象的一种假说（Michaud等人2023，Brill 2024）：知识以离散块学习，技能频率分布遵循幂律，模型先学常见后学罕见技能。

反方 / 局限

— 所有数据受限的Scaling Law模型（Muennighoff、Lovelace）均为经验性曲线拟合，缺乏理论支持，不清楚为何采用特定形式及自由参数。
— Hernandez等人（2022）关于重复数据影响的研究建立在受控实验室环境，真实世界重复情况更复杂（语义重复、不同程度重复），结论可能无法直接泛化。
— 早期工作的理论基础（如VC维度）在现代深度学习中被认为过于粗糙，经验性幂律比理论最坏情况边界更清晰实用，说明当前领域理论落后于实践。

翁荔 Lil'Log Thinking Machines Lab Scaling Law Kaplan Scaling Law Chinchilla Scaling Law Power Law Hoffmann等人 Kaplan等人 Besiroglu等人 Lovelace等人 Muennighoff等人 Hernandez等人 Rosenfeld等人 Gopher Chinchilla

22 分钟 · 4 卡片 · 5 资料

读原文 →

刚刚，翁荔博客上新：谨慎对待Scaling Law

前置背景

平行视角

未来推演

延伸追问