Emma

Resumo:

  • Grandes redes neurais exigem engenharia complexa para treinamento, envolvendo clusters de GPU e cálculos sincronizados.
  • Técnicas de paralelismo, como paralelismo de dados, de pipeline, de tensor e de mistura de especialistas, ajudam a distribuir o treinamento em várias GPUs.