Grandes redes neurais exigem engenharia complexa para treinamento, envolvendo clusters de GPU e cálculos sincronizados.
Técnicas de paralelismo, como paralelismo de dados, de pipeline, de tensor e de mistura de especialistas, ajudam a distribuir o treinamento em várias GPUs.