Emma

Résumé:

  • PagedAttention est un nouvel algorithme d'attention inspiré de la mémoire virtuelle et des techniques de pagination des systèmes d'exploitation, conçu pour aider à un traitement à haut débit des grands modèles de langage (LLM).
  • Les créateurs ont également construit un système de traitement de LLM appelé vLLM qui minimise le gaspillage de la mémoire cache clé-valeur et permet un partage flexible de cette mémoire au sein des demandes et entre elles, ce qui améliore finalement le débit des LLM populaires de 2 à 4 fois et réduit l'utilisation de la mémoire.