
Aphrodite-engine
PygmalionAI的大规模推理引擎
- 连续批处理,提高模型推理效率
- 使用vLLM的分页注意力技术,优化键值管理
- 为不同GPU优化的CUDA内核,提升推理速度
- 支持多种量化方案,如AQLM、AWQ等,以适应不同硬件
- 分布式推理能力,支持大规模用户访问
- 提供多种采样方法,如Mirostat、Locally Typical Sampling等
- 8位KV缓存,支持更长的上下文长度和吞吐量
产品详情
Aphrodite是PygmalionAI的官方后端引擎,旨在为PygmalionAI网站提供推理端点,并允许以极快的速度为大量用户提供Pygmalion模型服务。Aphrodite利用vLLM的分页注意力技术,实现了连续批处理、高效的键值管理、优化的CUDA内核等特性,支持多种量化方案,以提高推理性能。