Emma

摘要:

  • PagedAttention是一種受操作系統虛擬內存和分頁技術啟發的新的attention算法,旨在幫助高吞吐量服務大型語言模型(LLMs)。
  • 創作者還建立了一個名為vLLM的LLM服務系統,該系統最小化了鍵值緩存內存中的浪費,並允許在請求內和請求之間靈活共享該內存,從而將熱門LLMs的吞吐量提高了2-4倍並減少了內存使用。