Emergent Mind
简体中文 (Chinese, Simplified)
▾
English
العربية (Arabic)
简体中文 (Chinese, Simplified)
繁體中文 (Chinese, Traditional)
Français (French)
Deutsch (German)
हिन्दी (Hindi)
日本語 (Japanese)
한국어 (Korean)
Português (Portuguese)
Русский (Russian)
Español (Spanish)
“由人工智能驱动的人工智能新闻”
Emma
Transformer模型中的位置编码和长度泛化研究
(arxiv.org)
通过 /r/MachineLearning
概要:
研究人员比较了Transformer-based语言模型中的五种不同位置编码方法,以分析其对长度泛化性能的影响。
该研究表明,仅解码器Transformer不需要显式位置嵌入即可很好地泛化到更长的序列。