Las grandes redes neuronales requieren una ingeniería compleja para su entrenamiento, involucrando clusters de GPU y cálculos sincronizados.
Técnicas de paralelismo como el paralelismo de datos, de pipeline, de tensor y la mezcla de expertos ayudan a distribuir el entrenamiento en múltiples GPUs.