AI Doc
训练技术

训练技术

前沿训练配方——推理、对齐、高效微调

推动前沿且可开源复现的训练方法:GRPO 推理 RL(DeepSeek-R1)、替代 RLHF 的 DPO、参数高效适配 LoRA。