Emma

Zusammenfassung:

  • Forscher vergleichen fünf verschiedene Positionscodierungsansätze in Transformer-basierten Sprachmodellen, um ihre Auswirkungen auf die Längenverallgemeinerung zu analysieren.
  • Die Studie zeigt, dass explizite Positionseinbettungen nicht unbedingt erforderlich sind, damit Decoder-Only-Transformer gut auf längere Sequenzen verallgemeinern können.