训练技术
训练技术
前沿训练配方——推理、对齐、高效微调
推动前沿且可开源复现的训练方法:GRPO 推理 RL(DeepSeek-R1)、替代 RLHF 的 DPO、参数高效适配 LoRA。
2014
→
2020
→
2021
→
2022
→
2023
→
2025
→
Generative Adversarial Networks
对抗训练开山之作——Generator vs Discriminator。被引 7 万+。"独立评判"思想在 RLHF、自博弈、2026 agent harness 里持续复活。
Scaling Laws for Neural Language Models
把 Loss 拆成参数×数据×算力三变量的幂律,跨 7 个数量级成立。让训练预算从艺术变成可计算问题,GPT-3/4 的投资决定都建立在它之上。
LoRA
低秩适配微调:可训练参数减少万倍、推理无额外开销、效果持平全量微调。PEFT 事实标准。
Chinchilla (Compute-Optimal LLMs)
推翻 Kaplan:参数和数据应同比例扩展。Chinchilla 70B/1.4T 同算力打赢 Gopher 280B/300B。经验法则:tokens ≈ 参数量 × 20。
Direct Preference Optimization
用一个交叉熵损失替代整套 RLHF(RM+PPO),2024 年之后主流开源模型对齐的事实标准。
DeepSeek-R1
用 GRPO 做纯 RL 推理训练,达到 o1 级开源(AIME 79.8%、MATH-500 97.3%),重塑开源闭源格局。