Исследователи представляют новый подход для улучшения памяти трансформеров, используя маркеры ориентиров для представления блоков ввода.
Этот метод позволяет получать доступ к всему контексту, сохраняя гибкость произвольного доступа, достигая сравнимой производительности с Transformer-XL и расширяя длину контекста LLaMA 7B до 32 тысяч токенов.