PagedAttention es un nuevo algoritmo de atención inspirado en la memoria virtual y las técnicas de paginación en sistemas operativos, diseñado para ayudar con la ejecución de alta velocidad de grandes modelos de lenguaje (LLMs).
Los creadores también construyeron un sistema de ejecución de LLM llamado vLLM que minimiza el desperdicio de memoria caché de clave-valor y permite el intercambio flexible de esta memoria dentro y entre solicitudes, lo que en última instancia mejora el rendimiento de los LLMs populares de 2 a 4 veces y reduce el uso de memoria.