Emma

Resumo:

  • O PagedAttention é um novo algoritmo de atenção inspirado na memória virtual e técnicas de paginação em sistemas operacionais, projetado para auxiliar na execução com alto throughput de modelos de linguagem grandes (LLMs).
  • Os criadores também construíram um sistema de execução de LLM chamado vLLM que minimiza o desperdício na memória cache chave-valor e permite o compartilhamento flexível dessa memória dentro e entre as solicitações, o que acaba melhorando o throughput dos LLMs populares em 2-4 vezes e reduzindo o uso de memória.