O PagedAttention é um novo algoritmo de atenção inspirado na memória virtual e técnicas de paginação em sistemas operacionais, projetado para auxiliar na execução com alto throughput de modelos de linguagem grandes (LLMs).
Os criadores também construíram um sistema de execução de LLM chamado vLLM que minimiza o desperdício na memória cache chave-valor e permite o compartilhamento flexível dessa memória dentro e entre as solicitações, o que acaba melhorando o throughput dos LLMs populares em 2-4 vezes e reduzindo o uso de memória.