Emma

Zusammenfassung:

  • PagedAttention ist ein neuer Aufmerksamkeitsalgorithmus, der sich von virtuellem Speicher und Paging-Techniken in Betriebssystemen inspirieren lässt und dazu dient, den Durchsatz bei der Bereitstellung großer Sprachmodelle (LLMs) zu verbessern.
  • Die Ersteller haben auch ein LLM-Bereitstellungssystem namens vLLM entwickelt, das Verschwendung im Key-Value-Cache-Speicher minimiert und eine flexible gemeinsame Nutzung dieses Speichers innerhalb und zwischen Anfragen ermöglicht, was letztendlich den Durchsatz beliebter LLMs um das 2-4-fache erhöht und den Speicherbedarf reduziert.