Les chercheurs comparent cinq approches d'encodage positionnel différentes dans les modèles de langage basés sur Transformer pour analyser leur impact sur la généralisation de longueur.
L'étude montre que les embeddings de position explicites ne sont pas essentiels pour que les Transformers avec décodeur seul se généralisent bien à des séquences plus longues.