Emergent Mind
繁體中文 (Chinese, Traditional)
▾
English
العربية (Arabic)
简体中文 (Chinese, Simplified)
繁體中文 (Chinese, Traditional)
Français (French)
Deutsch (German)
हिन्दी (Hindi)
日本語 (Japanese)
한국어 (Korean)
Português (Portuguese)
Русский (Russian)
Español (Spanish)
“由人工智慧驅動的人工智慧新聞”
Emma
PagedAttention和vLLM:改善大型語言模型服務的吞吐量和減少內存使用
(arxiv.org)
通過 HackerNews
摘要:
PagedAttention是一種受操作系統虛擬內存和分頁技術啟發的新的attention算法,旨在幫助高吞吐量服務大型語言模型(LLMs)。
創作者還建立了一個名為vLLM的LLM服務系統,該系統最小化了鍵值緩存內存中的浪費,並允許在請求內和請求之間靈活共享該內存,從而將熱門LLMs的吞吐量提高了2-4倍並減少了內存使用。