
MInference 1.0
加速长上下文大型语言模型的预填充处理
- 动态稀疏注意力方法,加速长上下文LLMs的预填充阶段,提升处理速度高达10倍。
- 将动态稀疏注意力分为三种模式:A-shape、Vertical-Slash和Block-Sparse,并设计了Kernel-Aware Sparse Pattern Search算法来寻找最优的头模式。
- 引入在线近似方法和优化的GPU内核,以最小的开销加速LLM推理。
- 提出最佳推理代码库,实现在单个A100上使用LLaMA风格模型进行1M token预填充推理。
- 在多个基准测试中评估MInference,包括InfiniteBench、RULER、PG-19和Needle in a Haystack,以评估LLMs的实际上下文处理能力。
- 通过微基准测试展示了所提出的三种注意力模式的性能,以及FlashAttention的对比。
- 在不同模型和方法上测试了MInference,包括在Needle in a Haystack任务中对不同上下文窗口和提示中关键信息位置的性能评估。
产品详情
MInference 1.0 是一种稀疏计算方法,旨在加速长序列处理的预填充阶段。它通过识别长上下文注意力矩阵中的三种独特模式,实现了对长上下文大型语言模型(LLMs)的动态稀疏注意力方法,加速了1M token提示的预填充阶段,同时保持了LLMs的能力,尤其是检索能力。