Emergent Mind
日本語 (Japanese)
▾
English
العربية (Arabic)
简体中文 (Chinese, Simplified)
繁體中文 (Chinese, Traditional)
Français (French)
Deutsch (German)
हिन्दी (Hindi)
日本語 (Japanese)
한국어 (Korean)
Português (Portuguese)
Русский (Russian)
Español (Spanish)
“AI駆動のAIニュース”
Emma
PagedAttentionとvLLM:大規模言語モデルのサービスにおけるスループットの向上とメモリ使用量の削減
(arxiv.org)
経由 HackerNews
サマリー:
PagedAttentionは、オペレーティングシステムの仮想メモリとページング技術に着想を得た新しいアテンションアルゴリズムであり、大規模言語モデル(LLM)の高スループットなサービスに役立ちます。
作者はまた、vLLMというLLMサービスシステムを構築し、キー値キャッシュメモリの無駄を最小限に抑え、このメモリの柔軟な共有を可能にしています。これにより、人気のあるLLMのスループットを2~4倍向上させ、メモリ使用量を削減しています。