Emma

サマリー:

  • PagedAttentionは、オペレーティングシステムの仮想メモリとページング技術に着想を得た新しいアテンションアルゴリズムであり、大規模言語モデル(LLM)の高スループットなサービスに役立ちます。
  • 作者はまた、vLLMというLLMサービスシステムを構築し、キー値キャッシュメモリの無駄を最小限に抑え、このメモリの柔軟な共有を可能にしています。これにより、人気のあるLLMのスループットを2~4倍向上させ、メモリ使用量を削減しています。