Emergent Mind
繁體中文 (Chinese, Traditional)
▾
English
العربية (Arabic)
简体中文 (Chinese, Simplified)
繁體中文 (Chinese, Traditional)
Français (French)
Deutsch (German)
हिन्दी (Hindi)
日本語 (Japanese)
한국어 (Korean)
Português (Portuguese)
Русский (Russian)
Español (Spanish)
“由人工智慧驅動的人工智慧新聞”
Emma
Transformer模型中位置編碼和長度泛化的研究
(arxiv.org)
通過 /r/MachineLearning
摘要:
研究人員比較了Transformer-based語言模型中的五種不同位置編碼方法,以分析它們對長度泛化的影響。
該研究表明,僅具有解碼器的Transformer在較長序列上表現良好,並不需要顯式的位置嵌入。