Emma

概要:

  • PagedAttention是一种受操作系统虚拟内存和分页技术启发的新的注意力算法,旨在帮助高吞吐量服务大型语言模型(LLMs)。
  • 创作者还构建了一个名为vLLM的LLM服务系统,它最小化了键值缓存内存中的浪费,并允许在请求之间以及请求内部灵活共享该内存,从而最终将热门LLM的吞吐量提高了2-4倍,并减少了内存使用。