Aphrodite-engine

Aphrodite-engine

PygmalionAI的大规模推理引擎

  • 连续批处理,提高模型推理效率
  • 使用vLLM的分页注意力技术,优化键值管理
  • 为不同GPU优化的CUDA内核,提升推理速度
  • 支持多种量化方案,如AQLM、AWQ等,以适应不同硬件
  • 分布式推理能力,支持大规模用户访问
  • 提供多种采样方法,如Mirostat、Locally Typical Sampling等
  • 8位KV缓存,支持更长的上下文长度和吞吐量

产品详情

Aphrodite是PygmalionAI的官方后端引擎,旨在为PygmalionAI网站提供推理端点,并允许以极快的速度为大量用户提供Pygmalion模型服务。Aphrodite利用vLLM的分页注意力技术,实现了连续批处理、高效的键值管理、优化的CUDA内核等特性,支持多种量化方案,以提高推理性能。