Emma
Краткое содержание:
-
Большие нейронные сети требуют сложной инженерной работы для обучения, включая кластеры GPU и синхронизированные вычисления.
-
Техники параллелизма, такие как параллелизм данных, поточный, тензорный и подход смеси экспертов, помогают распределить обучение по нескольким GPU.