Emma

ملخص:

  • PagedAttention هو خوارزمية انتباه جديدة مستوحاة من الذاكرة الافتراضية وتقنيات الصفحة في أنظمة التشغيل ، مصممة للمساعدة في تقديم نماذج لغة كبيرة بإنتاجية عالية.
  • قام المبتكرون أيضًا ببناء نظام لتقديم نماذج لغة كبيرة يسمى vLLM الذي يقلل الهدر في ذاكرة الذاكرة ذات المفتاح والقيمة ويسمح بمشاركة مرنة لهذه الذاكرة داخل وعبر الطلبات ، مما يحسن في النهاية إنتاجية نماذج اللغة الكبيرة بمقدار 2-4 مرات ويقلل استخدام الذاكرة.