女娲.skill (Nuwa Skill): Distilling Cognitive Operating Systems via a 6-Agent Research Swarm

原文仓库: github.com/alchaincyf/nuwa-skill

作者: 花叔 (Huashu / alchaincyf)

发表: 2026 / GitHub + skills.sh 生态

主题: 用 6 个并行 agent 从公开素材中提取某个人物的认知操作系统（心智模型 + 决策启发式 + 表达 DNA + 反模式 + 诚实边界），蒸馏成可直接调用的 SKILL.md。不是角色扮演，是认知框架提取

核心命题 / The Core Claim

"你想蒸馏的下一个员工，何必是同事。" "The next person you want to distill doesn't have to be a colleague."

colleague-skill 2026 年初在 GitHub 爆火（几天破 5000 星），它证明了一件事：蒸馏一个人的思维方式是可行的。女娲的追问是：既然蒸馏人是可行的，为什么只蒸馏身边的同事？去蒸馏乔布斯、马斯克、芒格、费曼、Naval、塔勒布——这些人恰好在公开信息中留下了大量可被蒸馏的材料。

女娲不是复制人，是提取认知操作系统。

1. 效果示例 / Effect Examples

在进入机制讨论之前，先看输出。以下都是女娲蒸馏出的 Skill 产生的实际对话片段（非角色扮演话术，而是用提取的心智模型回答新问题）：

用户      ❯ 我同时想做自媒体、写书、做独立开发，精力完全不够

Naval     ❯ 你列了三个欲望。每个欲望都是你跟不快乐签的一份合同。
            不是精力不够，是合同太多。

            问你自己：哪一个做起来你会忘记时间？
            那个就是你的特定知识所在。

            不是三选一。是先一，再一，再一。
            串行复利，不是并行内耗。

用户      ❯ 我们的 SaaS 产品获客成本太高了

马斯克    ❯ 先别想怎么降。先算物理极限。
            获客的最小必要动作是什么？用户从知道你到付费，
            信息传递的理论最短路径是什么？

            现在你的实际路径是理论路径的几倍？
            如果超过 3 倍，中间一定有可以砍掉的步骤。
            不是优化漏斗，是质疑漏斗本身该不该存在。

用户      ❯ OpenAI 和 Anthropic 谁的方向是对的？

乔布斯    ❯ 你问错了。这不是一场关于方向的竞赛。
            这是一场关于品味的竞赛。

            OpenAI 像 1985 年的微软。什么都做，什么都要赢。
            这种策略能赢市场份额。Bill Gates 就是这么赢的。
            问题是——当你什么都做的时候，你不可能每件事都做到
            insanely great。

            Anthropic 更像早期的 Apple。聚焦。
            Focus means saying no to a hundred good ideas.

            但两家公司都犯了一个我绝对不会犯的错误——
            他们不控制硬件。
            最终赢的可能是同时控制芯片、模型和用户界面的人。

关键观察：这不是在复读名人语录。乔布斯用的是"聚焦即说不"和"端到端控制"心智模型，Naval 用的是"欲望即合同"，马斯克用的是"渐近极限法"——它们是在用这个人的认知框架分析一个他从没直接回答过的问题。

2. 女娲提取什么 / What Gets Extracted

蒸馏各领域最强的人，需要提取比日常工作习惯更深的东西。女娲提取五层：

层次	说明
怎么说话	表达 DNA——语气、节奏、用词偏好
怎么想	心智模型、认知框架
怎么判断	决策启发式
什么不做	反模式、价值观底线
知道局限	诚实边界

工作习惯可以靠流程文档传递，但让芒格和马斯克面对同一个问题做出不同判断的，是认知框架。女娲提取的是认知操作系统，不是行为脚本。

诚实边界：一个不告诉你局限的 Skill 不值得信任

每个生成的 Skill 都明确标注做不到什么：

蒸馏不了直觉——框架能提取，灵感不能
捕捉不了突变——截止到调研时间的快照
公开表达 ≠ 真实想法——只能基于公开信息

这条约束本身就是女娲品味的一部分。一个声称能"完美复制乔布斯"的系统必然在吹牛；一个主动告诉你"我提取了 6 个心智模型但对他未公开的领域无能为力"的系统反而更可信。

3. 6-Agent Research Swarm：并行信息采集 / The 6-Agent Research Swarm

这是女娲整个流水线里最重要的工程决策。蒸馏一个人需要跨多个信息源、多种材料类型做大量调研——如果串行做，一个人物要好几小时；如果用 agent swarm 并行分工，整体时间被压缩到一个 agent 单独跑的时间。

6 个并行 Agent 的任务分配

Agent	搜索目标	提取重点	输出文件
1 著作	书、长文、论文、newsletter	反复出现≥3次的核心论点（真信念）、自创术语、推荐书单	`01-writings.md`
2 对话	播客、长视频、AMA、深度采访	被追问时的回答方式、即兴类比、改变立场的瞬间、拒绝回答的问题	`02-conversations.md`
3 表达	Twitter/X、微博、即刻、短文	高频用词句式、争议立场、幽默方式、公开辩论	`03-expression-dna.md`
4 他者	他人分析、书评、批评、传记	外部观察到的模式、批评与争议、与同行对比	`04-external-views.md`
5 决策	重大决策、转折点、争议行为	决策背景与逻辑、事后反思、言行一致/不一致案例	`05-decisions.md`
6 时间线	出生/出道到现在的完整时间线	关键里程碑、思想转折点、最近 12 个月动态（防过时）	`06-timeline.md`

6 个维度背后的认识论假设

这 6 个维度不是随便凑的，每一个都对应一种不同的信息失真方式，多维度交叉是为了抵消每一种失真：

Agent 1（著作） 捕捉"系统性思考"，但过于整齐——作者会把想法打磨过
Agent 2（对话） 捕捉"即兴思维"，但会掺杂社交礼貌和妥协
Agent 3（表达） 捕捉"实时反应"，但碎片化，可能被断章取义
Agent 4（他者） 提供"外部视角"，但会有批评者偏见
Agent 5（决策） 捕捉"真实行为"——最硬的信号，但材料稀缺
Agent 6（时间线） 提供"演化轨迹"，防止把某一时期的想法当成永恒

把 6 种失真源同时激活并用后续的三重验证交叉比对，能逼近一个更接近真实的画像。

Agent 硬性要求（工程层面）

调研结果必须写入 references/research/0X-xxx.md——不存文件的调研等于没做
注明信息来源和可信度（一手 > 二手 > 推测）
区分"他说过的" vs "别人说他的" vs "我推断的"
发现矛盾时保留矛盾，不要和稀泥——矛盾本身是信号

最后一条"保留矛盾"是反直觉但极重要的。LLM 的默认倾向是把冲突信息融合成一个平滑的叙述，这会丢失"这个人思想在某个时期发生了变化"或"他对某类问题有内在张力"这种最宝贵的信号。女娲明确禁止这种平滑。

4. 三重验证：一个观点凭什么被收录 / Triple Verification for Mental Models

6 个 agent 收集到的素材会产生 15-30 个候选观点。但不是所有高频出现的观点都应该被固化为"心智模型"。女娲用三重验证筛选：

一个候选观点要通过，必须满足：

标准	含义	反例
跨域复现	在 ≥2 个不同领域/话题中出现过	只在讨论创业时说过的不算（可能是情境话术）
生成力	能用这个框架推断此人对新问题的立场	纯描述性总结不算（没有预测力）
排他性	不是所有聪明人都会这么想	"要努力工作"不算（缺乏独特性）

三重通过 → 心智模型；仅 1-2 重 → 降级为决策启发式；0 重 → 丢弃。

排他性这条尤其值得强调。它直接防止了最常见的失败模式：把一堆漂亮但通用的金句拼成一个"xxx 的 Skill"。女娲要求的是能将这个人与其他聪明人区分开的东西——这才是认知框架的真正价值。

5. 完整流程：从输入名字到可运行 Skill / End-to-End Pipeline

Phase 0: 入口分流

直接路径：用户给明确人名/主题 → Phase 0A
诊断路径：用户只有模糊需求（"我想提升决策质量"）→ Phase 0B 反向推荐候选

Phase 0B 的存在很有意思——它承认一个事实：用户常常不知道自己需要蒸馏谁。女娲内置了一张"需求维度 → 思维框架方向"的映射表（决策与判断 → 多元思维模型/逆向思考；批判思维 → 证伪思维/演化视角；风险与不确定性 → 反脆弱/凸性策略……），可以从需求反推最适合的候选。

Phase 0.5: 创建 Skill 目录

在调研之前立刻执行。核心设计原则：

所有调研文件必须存在 skill 目录内部（references/research/），绝对不要存到外部目录。Skill 必须是自包含的——复制整个 skill 目录就能独立使用。这是为开源分发设计的核心原则。

这是 2026 年 skills.sh 生态里的标准实践：Skill 必须是可移植的原子单元。

Phase 1: 6-Agent 并行采集

三种模式：

模式	触发条件	策略
纯网络搜索（默认）	用户未提供素材	6 agent 全网搜索
本地语料优先	用户提供 PDF / transcript / 字幕	先读本地，网络搜索变补充
纯本地语料	非公众人物 / 用户明确指定	只分析本地素材

本地语料优先模式很实用——作者指出用户手上的一手素材（完整书籍、长访谈原文）通常比网络搜索到的二手转述质量高得多，所以在权重表中本地一手素材排在最高。

Phase 1.5: 调研 Review 检查点（关键工程决策）

所有 Agent 完成后暂停，展示调研质量摘要：

┌──────────────────┬──────────┬──────────────────────────┐
│ Agent            │ 来源数量  │ 关键发现                  │
├──────────────────┼──────────┼──────────────────────────┤
│ 1 著作           │ 8 篇     │ 核心论点: 反脆弱、...     │
│ 2 对话           │ 5 段     │ 立场变化: 2020 年后...    │
│ 3 表达           │ 120 条   │ 高频词: "skin in the..." │
│ 4 他者           │ 6 篇     │ 主要批评: ...             │
│ 5 决策           │ 4 个     │ 关键决策: ...             │
│ 6 时间线         │ 完整      │ 最新: 2026 年 3 月...    │
├──────────────────┼──────────┼──────────────────────────┤
│ 矛盾点           │ 2 处     │ Agent1 说 X, Agent4 说 Y │
│ 信息不足维度      │ 无       │                          │
└──────────────────┴──────────┴──────────────────────────┘

女娲作者点出了这个检查点的真正意义：

调研质量决定了最终 Skill 的上限。垃圾进垃圾出，在这里拦截比在 Phase 4 返工成本低得多。

这是一个深刻的流水线设计洞察：越早的阶段发现问题，修复成本越低。Phase 1.5 检查点虽然打断了全自主流程，但防止了"跑完所有 Phase 后发现基础调研就是错的"这种代价最高的失败模式。

Phase 2: 框架提炼（Synthesis）

2.1 扫描 15-30 个候选 → 三重验证筛选 → 排他性排序取 top 3-7 个心智模型
2.2 决策启发式 5-10 条（"如果 X，则 Y"的快速规则）
2.3 表达 DNA（句式、词汇、节奏感、幽默方式、确定性表达、引用习惯 6 个维度）
2.4 价值观与反模式 + 内在矛盾与张力
2.5 智识谱系（此人受谁影响 → 影响了谁）
2.6 诚实边界

三个宁少勿多原则： 3 个深刻的模型远好于 10 个浅薄的原则；不做的事比做的事更揭示品味；矛盾保留比消除更诚实。

Phase 2.5: 提炼确认检查点

又一个"人在回路"的 checkpoint——提炼是整个流程中主观判断最重的环节，确认后再构建，避免写完 400 行 SKILL.md 才发现方向不对。

Phase 3: Skill 构建

按 references/skill-template.md 填入提炼结果，最关键的一块是自动生成 Agentic Protocol（回答工作流）：

让人物不只是"说得像"，还"做得像"。没有这个段落，人物 Skill 遇到需要事实的问题时会凭训练语料编造，而不是像真人一样先做功课再发言。这是人物 Skill 从"鹦鹉学舌"升级为"可靠思维顾问"的关键。

Agentic Protocol 根据此人的心智模型自动推导研究维度：

人物	核心心智模型	→ 推导出的研究维度
芒格	多元思维模型、逆向思考、激励机制	看护城河、看管理层激励、看最大风险（逆向）、看历史类比
费曼	第一性原理、对权威的怀疑	看基本物理/数学约束、看官方说法的逻辑漏洞、看实验数据
塔勒布	反脆弱、尾部风险、知识的僭妄	看极端情况、看谁承担尾部风险、看专家预测的历史记录

研究维度必须来自心智模型，不能是通用的"搜索相关信息" —— 这让每个 Skill 在执行层面都带上了这个人的认知偏向，而不仅是表达层面。

Phase 4: 质量验证（3 项测试）

用独立子 agent执行（避免自评偏差）：

已知测试（Sanity Check）：选 3 个此人公开表态过的问题让 Skill 回答 → 方向一致则通过
边缘测试（Edge Case）：选 1 个此人没讨论过的问题 → 应该表现出适度不确定而非斩钉截铁
风格测试（Voice Check）：写 100 字分析 → 是否有此人的表达特征，不是通用 AI 味鸡汤，不是原话拼凑

通过标准是一张 6 项检查表：心智模型数量（3-7）、每个模型的局限性、表达 DNA 辨识度、诚实边界条数（≥3）、内在张力（≥2）、一手来源占比（>50%）。

迭代上限：Phase 2→4 最多循环 2 次。如果 2 轮后仍有不通过项，在诚实边界中标注薄弱维度，交付当前最优版本而非无限打磨。这是对"不要让完美变成交付的敌人"的工程化落实。

Phase 5: 双 Agent 精炼（标准后置工序）

Phase 4 验证通过后自动启动双 Agent 并行精炼：

Agent A（auto-skill-optimizer 视角，即 Darwin） — 8 维度结构评估 + 3 个干跑测试 → 输出最弱 2 个维度的改进建议
Agent B（skill-creator 视角） — 评审激活触发条件、角色扮演规则的可操作性

主 Agent 综合两份报告，应用不冲突的改进。这里的设计值得注意：女娲本身就内置了达尔文的评估体系——这也是女娲生成的 Skill 质量高的原因之一。Phase 5 是一次"出厂前的镀层"。

6. 信息源优先级与黑名单 / Source Priorities & Blacklist

女娲对信息源有极其具体的优先级和黑名单规则，这比很多"深度研究"系统更接地气：

信息源优先级

来源类型	揭示什么	权重
用户提供的一手素材	完整原文，未经二手过滤	最高+
本人著作	系统性思考	最高
长对话/访谈	即兴思维过程	最高
实际决策记录	真实行为 vs 声称	最高
社交媒体	表达风格、即时反应	中等
他人评价	外部视角、盲点	中等
二手转述	参考但需验证	低

信息源黑名单（永远排除）

知乎：洗稿严重、信息失真率高
微信公众号：封闭生态、无法验证、大量二手转述
百度百科 / 百度知道：信息陈旧且不可靠

这是一个基于真实中文信息生态品质差异的工程决策，不是意识形态偏好。中文渠道只接受权威媒体：36 氪、晚点 LatePost、财新、第一财经、虎嗅、少数派、机器之心等；人物访谈类用 B 站原始视频（非搬运号）和小宇宙播客。

这类"写死的黑名单"是任何做中文领域 AI 系统都需要补的一课——不加黑名单，agent 会被搜索引擎 SEO 的噪声生态污染。

7. 已蒸馏的 13 个人物 + 1 个主题 / The Distilled Catalog

截至仓库 2026 年 3 月状态：

人物	领域
Paul Graham	创业/写作/产品/人生哲学
张一鸣	产品/组织/全球化/人才
Karpathy	AI/工程/教育/开源
Ilya Sutskever	AI 安全/scaling/研究品味
MrBeast	内容创造/YouTube 方法论
特朗普	谈判/权力/传播/行为预判
乔布斯	产品/设计/战略
马斯克	工程/成本/第一性原理
芒格	投资/多元思维/逆向思考
费曼	学习/教学/科学思维
Naval Ravikant	财富/杠杆/人生哲学
塔勒布	风险/反脆弱/不确定性
张雪峰	教育/职业规划/阶层流动

每个都是独立仓库 + 一键 npx 安装，且都包含完整的 6 维度调研原始数据。调研过程全透明——你可以看到信息怎么被收集、筛选、变成心智模型。

8. 与本仓库现有工作的关联 / Relation to Existing Work in This Repo

方法	核心产物	与女娲的差异
AgentFactory	可执行 Python 子 agent	AgentFactory 解决"重复任务的复利复用"；女娲解决"复制专家的认知框架"——两者的"经验单位"不同（代码 vs Skill）
autoresearch	单一 GPT 训练脚本	autoresearch 优化同一个代码资产；女娲批量生成新的 Skill 资产
darwin-skill	优化过的 SKILL.md	同作者。女娲造 skill，达尔文让 skill 进化。Phase 5 就内嵌了达尔文
LLM Knowledge Bases	个人 Wiki	Karpathy 的个人 Wiki 把自己的知识蒸馏成 Markdown；女娲把别人的思维蒸馏成 Skill。两者都是"写入侧综合"范式
Coding Agents Landscape 2026	综述	女娲是该综述所描述的"skill-centric 多 agent 系统"的具体例证

9. 工程师视角的关键启示 / Key Takeaways

Agent swarm 的正确用法是分工，不是投票。 女娲的 6 个 agent 不是做同一件事 6 次投票，而是 6 个互不重叠的专业视角。这是 2026 年 agent swarm 设计最有效的模式：维度分工 > 结果集成。
每一维信息源对应一种失真模式。 著作太整齐、对话有社交妥协、社交媒体太碎片、他者评价有偏见——承认每种信息源的局限，用多维度交叉来抵消各自偏差。单源永远不够。
"保留矛盾，不要和稀泥"是最反直觉但最重要的规则。 LLM 默认会平滑冲突信息，但冲突本身往往是最有信号的部分（立场变化、内在张力）。在系统提示里显式禁止平滑。
三重验证 = 跨域复现 + 生成力 + 排他性。 这套筛选逻辑可以移植到任何"从大量候选观点中挑选出真正独特的认知框架"的场景：读书笔记系统、访谈分析、竞品调研、学术综述。
检查点位置 = 信息质量变化最大的位置。 Phase 1.5（调研质量检查）和 Phase 2.5（提炼质量检查）的位置不是随机的——它们卡在流程中信息最脆弱且可追溯的节点，失败成本最低。设计任何多阶段 agent 流水线时，问自己："下一阶段开始后，上一阶段的错误是否还能被发现和修复？"
Skill 必须自包含。 所有调研文件存在 skill 目录内部，不存外部。复制整个目录就能独立运行——这是开源分发的原子性要求。
黑名单比白名单重要。 知乎/微信公众号/百度百科等信源在中文领域会系统性地污染输出，显式排除比"信任模型自己判断"更稳健。
从心智模型推导执行协议。 Agentic Protocol 根据心智模型自动生成研究维度——这让"思考方式"和"搜索方式"强绑定，让 Skill 在执行层面也带上被蒸馏者的认知偏向。这是对"Skill 不是提示词包装"这一主张最有力的工程化证明。

10. 局限与诚实边界 / Honest Limitations

女娲自己也受制于它所揭示的限制：

蒸馏不了直觉 — 框架能提取，灵感不能
公开信息 ≠ 真实想法 — 只能基于公开材料，私人判断和情境化决策仍然不可企及
冷门人物效果有限 — 可用来源 < 10 条时，心智模型减至 2-3 个，诚实边界加大篇幅
时效性 — 截止到调研时间的快照，活人需要定期"更新模式"（只跑 Agent 2/5/6 的增量调研）
过于中心化作者品味 — 三重验证、黑名单、优先级都来自花叔的判断。换一个领域专家来做可能会做出不同的权衡

最后一点恰好证明了女娲核心主张的正确性——品味本身是可蒸馏的，但它必然带着蒸馏者的印记。

References / 参考

仓库: github.com/alchaincyf/nuwa-skill
作者: 花叔（Twitter: @AlchainHust）
安装: npx skills add alchaincyf/nuwa-skill
姊妹项目: 达尔文.skill (darwin-skill)（同作者，女娲造 skill，达尔文让 skill 进化）
先行工作: colleague-skill — 蒸馏同事的可行性证明
生态: skills.sh — 2026 年跨 agent 工具的 Skill 标准
本仓库相关:
AgentFactory — "经验 = 代码"的相邻范式
autoresearch — Karpathy 的 skill 化自主研究原型（同被女娲 Phase 5 引用）
LLM Knowledge Bases — Karpathy 的个人 Wiki 范式
Coding Agents Landscape 2026 — 更广的生态综述