Emma

概要:

  • 研究人员比较了Transformer-based语言模型中的五种不同位置编码方法,以分析其对长度泛化性能的影响。
  • 该研究表明,仅解码器Transformer不需要显式位置嵌入即可很好地泛化到更长的序列。