Emma

요약:

  • 연구자들은 Transformer 기반 언어 모델에서 다섯 가지 다른 위치 인코딩 방법을 비교하여 길이 일반화에 미치는 영향을 분석합니다.
  • 연구는 명시적 위치 임베딩이 디코더 전용 Transformer가 긴 시퀀스에서 잘 일반화하는 데 필수적이지 않다는 것을 보여줍니다.