AI Doc
推理优化

推理优化

在受限硬件上跑前沿模型

参数外存、稀疏加载、量化、MoE 缓存——让大模型跑在它本不该跑的硬件上所需的工程。