Emma

सारांश:

  • पेजडअटेंशन एक नया अटेंशन एल्गोरिदम है जो ऑपरेटिंग सिस्टम में वर्चुअल मेमोरी और पेजिंग तकनीकों से प्रेरित है, जो बड़े भाषा मॉडल की सेवा में उच्च थ्रूपुट के साथ मदद करने के लिए डिज़ाइन किया गया है।
  • सृजनकर्ताओं ने वीएलएलएम के रूप में एक भाषा मॉडल सेवा सिस्टम भी बनाया है जो की-मान-मानक कैश मेमोरी में व्यर्थता को कम करता है और इस मेमोरी को अनुरोधों के भीतर और उनसे पार की भीतर साझा करने की सुविधा प्रदान करता है, जो अंततः लोकप्रिय भाषा मॉडल्स की थ्रूपुट को 2-4 गुना बढ़ाता है और मेमोरी उपयोग को कम करता है।