Emma

요약:

  • PagedAttention은 가상 메모리와 페이징 기법에서 영감을 받은 새로운 어텐션 알고리즘으로, 대용량 언어 모델 (LLM)의 고처리량 서빙에 도움을 주도록 설계되었습니다.
  • 제작자들은 또한 vLLM이라는 LLM 서빙 시스템을 구축했는데, 이 시스템은 키-값 캐시 메모리의 낭비를 최소화하고 요청 내에서 및 요청 간에 이 메모리를 유연하게 공유할 수 있도록 하여, 인기 있는 LLM의 처리량을 최대 2-4배 향상시키고 메모리 사용량을 줄입니다.