PagedAttention - это новый алгоритм внимания, вдохновленный виртуальной памятью и методиками страничного обмена в операционных системах, разработанный для помощи в обслуживании больших языковых моделей (LLMs) с высокой пропускной способностью.
Также создатели разработали систему обслуживания LLM под названием vLLM, которая минимизирует потери в кэше ключ-значение и позволяет гибкое совместное использование этой памяти внутри и между запросами, что в конечном итоге улучшает пропускную способность популярных LLMs на 2-4 раза и снижает использование памяти.