Emma

摘要:

  • 研究人員比較了Transformer-based語言模型中的五種不同位置編碼方法,以分析它們對長度泛化的影響。
  • 該研究表明,僅具有解碼器的Transformer在較長序列上表現良好,並不需要顯式的位置嵌入。