Emma

Résumé:

  • Les chercheurs comparent cinq approches d'encodage positionnel différentes dans les modèles de langage basés sur Transformer pour analyser leur impact sur la généralisation de longueur.
  • L'étude montre que les embeddings de position explicites ne sont pas essentiels pour que les Transformers avec décodeur seul se généralisent bien à des séquences plus longues.