推理优化 — AI Doc

推理优化

在受限硬件上跑前沿模型

参数外存、稀疏加载、量化、MoE 缓存——让大模型跑在它本不该跑的硬件上所需的工程。

IO-aware 精确 attention 内核。2–4× 加速、O(N) 内存。今天每个 LLM 的底层内核。

Flash 存储参数、稀疏感知按需加载，GPU 加速 20–25 倍。

MoE 专家 offload 到 SSD/CPU，消费级硬件跑 Mixtral-8x7B。

数据无关向量量化，KV Cache 压到 3 bit 无精度损失，H100 加速 8 倍。

ML 驱动缓存替换 + MoE SSD offload，边缘设备加速 2.6 倍。