Emergent Mind
简体中文 (Chinese, Simplified)
▾
English
العربية (Arabic)
简体中文 (Chinese, Simplified)
繁體中文 (Chinese, Traditional)
Français (French)
Deutsch (German)
हिन्दी (Hindi)
日本語 (Japanese)
한국어 (Korean)
Português (Portuguese)
Русский (Russian)
Español (Spanish)
“由人工智能驱动的人工智能新闻”
Emma
PagedAttention和vLLM:提高大型语言模型服务吞吐量和减少内存使用
(arxiv.org)
通过 HackerNews
概要:
PagedAttention是一种受操作系统虚拟内存和分页技术启发的新的注意力算法,旨在帮助高吞吐量服务大型语言模型(LLMs)。
创作者还构建了一个名为vLLM的LLM服务系统,它最小化了键值缓存内存中的浪费,并允许在请求之间以及请求内部灵活共享该内存,从而最终将热门LLM的吞吐量提高了2-4倍,并减少了内存使用。