PagedAttention هو خوارزمية انتباه جديدة مستوحاة من الذاكرة الافتراضية وتقنيات الصفحة في أنظمة التشغيل ، مصممة للمساعدة في تقديم نماذج لغة كبيرة بإنتاجية عالية.
قام المبتكرون أيضًا ببناء نظام لتقديم نماذج لغة كبيرة يسمى vLLM الذي يقلل الهدر في ذاكرة الذاكرة ذات المفتاح والقيمة ويسمح بمشاركة مرنة لهذه الذاكرة داخل وعبر الطلبات ، مما يحسن في النهاية إنتاجية نماذج اللغة الكبيرة بمقدار 2-4 مرات ويقلل استخدام الذاكرة.