推理优化
推理优化
在受限硬件上跑前沿模型
参数外存、稀疏加载、量化、MoE 缓存——让大模型跑在它本不该跑的硬件上所需的工程。
2022–2024
→
2023
→
2023
→
2025
→
2026
→
FlashAttention (v1/v2/v3)
IO-aware 精确 attention 内核。2–4× 加速、O(N) 内存。今天每个 LLM 的底层内核。
LLM in a Flash
Flash 存储参数、稀疏感知按需加载,GPU 加速 20–25 倍。
Fast Inference of MoE with Offloading
MoE 专家 offload 到 SSD/CPU,消费级硬件跑 Mixtral-8x7B。
TurboQuant
数据无关向量量化,KV Cache 压到 3 bit 无精度损失,H100 加速 8 倍。
FlashMoE
ML 驱动缓存替换 + MoE SSD offload,边缘设备加速 2.6 倍。