自我改进 Agent

Agent 改自己的代码、数据或 skill

从自博弈、测试时适应到可执行子 agent、autoresearch 棘轮——agent 随时间复利累积能力的路径。

用自然语言反馈替代梯度更新，HumanEval 从 80% 提到 91%，不改模型权重。

自博弈微调，模型 vs 上一版自己，无需额外标注。

基于 IFD 指标的自引导数据选择，5% 数据胜过全量。

递归自省，多轮自我修正，GSM8K 提升 23.9%。

经验驱动自进化，交互轨迹蒸馏为抽象策略原则。

检测弱项→自动生成数据→测试时 LoRA，样本量减 68 倍仍提升 5.48%。

框架：真正的自我改进需要自我评估、学习规划、效果评估三种元认知能力。

把成功解保存为可执行 Python 子 agent（而非文本），Install→Self-Evolve→Deploy 生命周期，编排成本降低 57%。

让 AI agent 通宵自主做 ML 研究——改 train.py、跑 5 分钟实验、按 val_bpb 保留或回滚；program.md 作为轻量级 skill。

把 autoresearch 的棘轮搬到 SKILL.md 优化——8 维评估（结构+实测）、独立子 agent 评分、退步自动回滚。