Os pesquisadores comparam cinco abordagens diferentes de codificação posicional em modelos de linguagem baseados em Transformer para analisar seu impacto na generalização de comprimento.
O estudo mostra que as embeddings de posição explícitas não são essenciais para que Transformers apenas decodificadores generalizem bem para sequências mais longas.