训练技术 — AI Doc

训练技术

前沿训练配方——推理、对齐、高效微调

推动前沿且可开源复现的训练方法：GRPO 推理 RL（DeepSeek-R1）、替代 RLHF 的 DPO、参数高效适配 LoRA。

对抗训练开山之作——Generator vs Discriminator。被引 7 万+。"独立评判"思想在 RLHF、自博弈、2026 agent harness 里持续复活。

把 Loss 拆成参数×数据×算力三变量的幂律，跨 7 个数量级成立。让训练预算从艺术变成可计算问题，GPT-3/4 的投资决定都建立在它之上。

低秩适配微调：可训练参数减少万倍、推理无额外开销、效果持平全量微调。PEFT 事实标准。

推翻 Kaplan：参数和数据应同比例扩展。Chinchilla 70B/1.4T 同算力打赢 Gopher 280B/300B。经验法则：tokens ≈ 参数量 × 20。

用一个交叉熵损失替代整套 RLHF（RM+PPO），2024 年之后主流开源模型对齐的事实标准。

用 GRPO 做纯 RL 推理训练，达到 o1 级开源（AIME 79.8%、MATH-500 97.3%），重塑开源闭源格局。