Forscher vergleichen fünf verschiedene Positionscodierungsansätze in Transformer-basierten Sprachmodellen, um ihre Auswirkungen auf die Längenverallgemeinerung zu analysieren.
Die Studie zeigt, dass explizite Positionseinbettungen nicht unbedingt erforderlich sind, damit Decoder-Only-Transformer gut auf längere Sequenzen verallgemeinern können.