Emma

Resumen:

  • PagedAttention es un nuevo algoritmo de atención inspirado en la memoria virtual y las técnicas de paginación en sistemas operativos, diseñado para ayudar con la ejecución de alta velocidad de grandes modelos de lenguaje (LLMs).
  • Los creadores también construyeron un sistema de ejecución de LLM llamado vLLM que minimiza el desperdicio de memoria caché de clave-valor y permite el intercambio flexible de esta memoria dentro y entre solicitudes, lo que en última instancia mejora el rendimiento de los LLMs populares de 2 a 4 veces y reduce el uso de memoria.