Emma

Resumen:

  • Los investigadores comparan cinco enfoques diferentes de codificación posicional en modelos de lenguaje basados en Transformadores para analizar su impacto en la generalización de longitud.
  • El estudio muestra que las incrustaciones de posición explícitas no son esenciales para que los Transformadores solo para decodificadores generalicen bien a secuencias más largas.