Scaling Laws for Neural Language Models

原文链接: arXiv:2001.08361

作者: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei(OpenAI)

发表: 2020-01-23

主题:第一性原理把 LLM 性能拆成三个可独立测量的变量——模型参数量 N、数据量 D、算力 C——并推出三条幂律,把"怎么花训练预算"从玄学变成可计算的问题。没有这篇就没有 GPT-3/4/5 的投入决定。


为什么这篇重要 / Why This Matters

2020 年前大模型训练的核心问题是黑箱决策:给你 1000 张 V100 和 1 个月,要不要堆参数?加数据?多训几个 epoch?全靠试错和直觉。

Kaplan 这篇用纯经验主义第一性分析把性能预测变成了可计算问题:

Loss = f(N, D, C)——只取决于参数量、数据量、算力,和具体架构选择几乎无关

这是一个惊人且深远的结论:

  • 如果 loss 只和 N/D/C 有关,你就可以在小模型上跑实验,外推到大模型
  • 你可以精确算出 1 亿美金预算该怎么分(多少给参数、多少给数据、多少给训练步数)
  • 你可以预先知道"下一代模型"的性能,不用等它训完
  • OpenAI 的 GPT-3(2020 6 月)、GPT-4(2023)就是基于这套方法提前知道能 work 才决定投入的

这是深度学习从"手艺"过渡到"工程"的一个分水岭。没有 Scaling Laws,frontier lab 不敢做几亿美金级别的 bet。


1. 三条核心幂律 / The Three Power Laws

Kaplan 的核心贡献是三条幂律关系(power laws):

1.1 Loss vs 模型参数量 N

保持数据 D 和训练步数充足:

$$ L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N} $$

其中 N 是非嵌入参数量(non-embedding),α_N ≈ 0.076。

这意味着: 每把参数量放大 10 倍,loss 减少一个固定百分比(大约 17%)。这个规律跨越 7 个数量级成立——从 ~10^3 参数到 ~10^10 参数。

1.2 Loss vs 数据量 D

保持参数 N 足够大、训练充分:

$$ L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D} $$

α_D ≈ 0.095。同样的幂律,跨越 6 个数量级。

1.3 Loss vs 算力 C (最优分配)

最优分配 N 和 D 的前提下:

$$ L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C} $$

α_C ≈ 0.050。

关键推论: 给你 10 倍算力,不是把算力全砸给 N、也不是全砸给 D——有一个最优配比让 loss 最低。


2. 第一性原理的体现 / First-Principles Analysis

Kaplan 这篇之所以被视为"第一性原理驱动"的典范,是因为:

2.1 拆解到最基本的变量

他没有研究"某个特定架构怎么训"——而是把变量拆到最底层:

  • N(模型参数量)—— 代表表达能力
  • D(训练数据量)—— 代表学习到的信息量
  • C(算力)—— 代表优化过程的深度

这三个是独立可测的物理量。所有其他因素(架构细节、超参、优化器、数据集构成)都是二阶效应

2.2 架构无关性

论文惊人的一个发现:Transformer 架构里,宽度 vs 深度 vs 注意力头数的具体选择几乎不影响 loss——只要参数总量 N 一样。

这极大地简化了训练决策——你不用在 50 种架构组合里 grid search,只用专注一个数:N

2.3 用小模型预测大模型

三条幂律拟合后,你可以:

  1. 用 0.1B 参数训练 + 测 loss
  2. 用 1B 参数训练 + 测 loss
  3. 外推到 100B、1T 参数会什么 loss——精度在 1% 以内

这就是 OpenAI 能在 GPT-3(175B)训练前提前知道它会比 GPT-2 强多少的原因。

2.4 数据量 vs 参数量的分配

论文给了具体公式:

$$ N_{\text{opt}} \propto C^{0.73}, \quad D_{\text{opt}} \propto C^{0.27} $$

解读: 算力增加 10 倍,最优参数量增加 ~5.4 倍、最优数据量增加 ~1.9 倍。

这是 GPT-3 175B + 300B tokens 配比的理论依据——比 GPT-2(1.5B)参数大 100 倍,数据只大 5 倍,完全符合 Kaplan 公式。


3. 关键图表 / Key Findings

图 1:三条幂律的跨 7 数量级对齐

Kaplan 原论文最著名的一张图是 N、D、C 各自的 loss 曲线在 log-log 坐标下完美呈直线——这就是"幂律"的视觉签名。

三条线跨越 7 个数量级都保持线性(R² > 0.99)——这种规律性在深度学习里极其罕见,过往大多数现象只在 2-3 个数量级内成立。

图 2:训练曲线的 collapse

不同大小模型的训练 loss 曲线,经过恰当归一化后坍缩成同一条曲线——证明这些是单一规律在不同参数下的显现,不是独立的现象。

图 3:最优预算分配

给定总算力 C,画出"应该训多大模型"的曲线——这张图是过去 5 年 OpenAI / DeepMind / Anthropic 决定训练规模的操作手册


4. 工程师视角的关键启示 / Key Takeaways

4.1 训练预算不是"多多益善",是可计算的配比

有了 Scaling Laws,你面对一个训练任务应该这样想:

  1. 估算你的总算力预算 C
  2. 查 Kaplan 公式得出最优 N 和 D
  3. 训练

不要凭直觉"加参数"或"加数据"。每一边都有最优点,过了就边际效益递减。

4.2 小模型实验 → 大模型决策

做任何训练决策(换优化器、换数据集、换架构)时,先在 100M 参数级别跑,测出 loss 曲线,然后用 Scaling Law 外推。外推精度通常 3-5% 以内。

这让"要不要花 100 万美金训这个"从赌博变成工程预算计算

4.3 架构细节是二阶的

2020 年以后,做新架构如果 claim "比 Transformer 好",必须做 scaling law 对比——只证明"在 1B 参数下好"没用,要证明"随 N 增大,Loss 曲线比 Transformer 更陡(更快下降)"。

大多数号称"超越 Transformer"的新架构都在这一步现原形——它们在小规模上 work,在 10B+ 规模上 scaling exponent 还不如 Transformer。

4.4 Loss 不是最终目标,但非常有用的代理

Kaplan 的 loss 预测不等于下游任务性能。GSM8K、MMLU、coding 这些具体能力和 loss 是强相关的,但不是确定性的。

2024 年后的实践:用 Kaplan 预测训练 loss + 用小规模 eval 预测下游能力,两者结合做预算决策

4.5 Kaplan 的计算会被 Chinchilla 修正

2022 年 DeepMind 的 Chinchilla 论文 指出 Kaplan 的数据配比低估了数据的重要性。2025 年的主流做法是 Chinchilla 配比,不是 Kaplan 配比

但 Kaplan 的方法论(用幂律拟合 + 外推)依然是正确的——只是系数被重新校准。读 Chinchilla 的前提是先读懂 Kaplan


5. 对 AI 行业的改变 / How This Changed the Industry

2020 前 vs 2020 后

维度 2020 前 2020 后
训练规模决策 直觉 + 勉强够就行 Scaling Law 外推计算
新架构验证 单点性能对比 Scaling exponent 对比
投资决定 "感觉会 work" 预算 → 预期 loss → 预期能力
研究优先级 架构创新 数据质量 + 算力效率(因为 scaling law 说 architecture 是二阶)

对其他 frontier lab 的影响

  • Anthropic 成立(2021)直接建立在 scaling laws 之上——Dario Amodei 是 Kaplan 论文作者之一
  • Chinchilla (2022) 直接回应并修正
  • Llama 系列 的 175B、70B、8B 配比都参考了这个框架
  • DeepSeek-V3 的 685B MoE + 37B 激活的 trade-off 也依据 scaling law 推演

6. 和本仓库其他文章的关联 / Relation to Other Papers

文章 关系
Chinchilla 直接后续 — 修正 Kaplan 的数据配比,必读对照
Sutton — Bitter Lesson Sutton 说"scaling 胜出",Kaplan 说"该怎么 scale"——互补
Karpathy — Software 2.0 Kaplan 告诉你 Software 2.0 的训练投资回报曲线长什么样
First Principles in Engineering Scaling Laws 是 AI 工程里第一性原理最成功的案例
LoRA LoRA 节约 finetuning 成本,但基础模型预训练仍由 Scaling Law 决定
DeepSeek-R1 R1 的训练配方也受 Kaplan-Chinchilla 曲线影响
开源模型目录 GLM-5、Qwen3.5、Llama 4 的参数/数据比都在 Kaplan-Chinchilla 框架内

为什么是 Tier-S / Why This Is Tier-S

  • 改变了整个行业的投资决策方式 — 从直觉到公式
  • 是第一性原理分析的教科书案例 — 拆到最基础变量,找出规律
  • 可验证可外推 — 跨 7 数量级成立
  • 作者后续影响: Dario Amodei 创立 Anthropic、Kaplan 去 Anthropic,这套方法论内化为前沿 lab 的标准决策框架
  • 直接可用 — 任何做大模型训练的团队都能套这套方法算自己的预算

References / 参考